搜索 引擎 在 人 们 的 日 常生 活 中 发 挥 着 越 来 越 重 要 的 作用 。 随 着 开源 软件 的 普及 与 发 展 ， 涌 现 出 了 许多 优秀 的 搜索 软件 ， 如 Elasticsearch、Solr 等 。 其 中 ，Elasticsearch 以 大 规模 分 布 式 搜索 见长 ， 而 Solr 
则 以 分 面 搜索 见长 。 


本 书 选 择 Elasticsearch 作 为 实现 搜索 引擎 的 工具 。Elasticsearch 具 有 强大 的 分 布 式 搜索 和 可 视 化 功能 不 仅 丰 富 了 实现 搜索 引擎 的 方法 ， 而 且 还 使 复杂 抽象 的 数据 结构 与 算法 变 得 直观 而 鲜 活 ， 因 此 在 
国外 被 迅速 地 引入 到 人 工 智能 的 相关 课程 中 。 


本 书 全 面 、 系 统 地 介绍 了 分 布 式 搜索 引擎 的 相关 内 容 及 Elasticsearch 中 的 Java 代 码 实现 。 本 书 内 容 既 注重 基础 知识 ， 又 非常 注重 实践 ， 每 章 都 提供 了 大 量 的 实例 程序 。 读 者 可 以 通过 这 些 实例 快速 上 
手 ， 并 迅速 提高 搜索 引擎 开发 技术 。 通 过 对 本 书 内 容 的 学 习 ， 读 者 不 仅 可 以 掌握 搜索 引擎 开发 的 基本 知识 ， 而 且 还 可 以 灵活 地 将 Elasticsearch 运 用 到 解决 实际 问题 当中 ， 从 而 提升 工作 效率 。 


本 书 特色 


1. 内 容 全 面 ， 结 构 合理 


本 书 首先 介绍 了 Elasticsearch 的 安装 和 基本 使 用 方法 ， 然 后 介绍 了 从 搜索 到 内 容 监控 等 方方面面 的 知识 。 在 内 容 安排 上 ， 本 书 根据 读者 的 认 知 规律 对 学 习 梯度 做 了 合理 安排 ， 降 低 了 学 习 难 度 。 


2. 讲解 详尽 ， 实 例 丰富 


本 书 对 每 个 技术 要 点 都 做 了 细致 入 微 的 介绍 ， 并 且 在 讲解 的 过 程 中 提供 了 丰富 的 实例 ， 而 且 每 个 实例 都 经 过 精 挑 细 选 ， 具 有 很 强 的 针对 性 ， 特 别 是 本 书 最 后 的 应 用 案例 ， 更 是 对 相关 技术 的 一 个 全 面 应 
。 另 外 ， 书 中 所 有 实例 的 实现 代码 都 考虑 了 通用 性 ， 读 者 可 以 直接 将 代码 移植 过 来 加 以 修改 ， 即 可 解决 自己 的 实际 问题 。 


3. 语言 通俗 ， 图 文 并 茂 


本 书 用 通俗 易 懂 的 语言 进行 讲解 ， 尽 量 避免 生疏 的 专业 术语 。 在 讲解 一 些 重要 知识 点 时 ， 书 中 给 出 了 大 量 的 图 示 及 实例 运行 结果 ， 帮 助 读者 更 加 直观 、 高 效 地 理解 所 学 内 容 。 


4. 提供 配套 教学 PPT， 使 学 习 更 高 效 


为 了 便于 读者 高 效 、 直 观 地 学 习 本 书 内 容 ， 作 者 特意 针对 每 章 的 重点 内 容 制作 了 教学 PPT， 这 些 PPT 和 本 书 的 实例 源 文件 都 会 免费 提供 给 读者 下 载 。 
本 书 内 容 


本 书 共 分 8 章 ， 具 体内 容 介绍 如 下 : 


第 1 章 Elasticsearch 开 发 搜索 引 敬 应用， 主要 介绍 了 搜索 引擎 开 发 方面 的 一 些 基 础 知识 和 Elasticsearch 开 发 环境 的 安装 ， 并 对 Java API 与 Elasticsearch 搜 索 集 群 的 交互 也 做 了 介绍 。 


第 2 章 开 发 中 文 搜索 引擎 ， 主 要 介绍 了 中 文 搜索 引擎 开发 的 相关 内 容 ， 包 括 中 文 分 词 原理 和 中 文 分 词 插件 开发 等 。 


第 3 章 Mapping 详 解 ， 主 要 介绍 了 Mapping 概 念 及 如 何 使 用 Mapping， 包 括 Mapping 索 引 、Mapping 数 据 类 型 、Mapping 参 数 和 动态 Mapping 等 。 


第 4 章 深入 源码 分 析 ， 详 细 分 析 了 Elasticsearch 源 代码 ， 主 要 内 容 包括 Lucene 源 码 分 析 、 启 动 搜索 服务 、Guice 框 架 、 日 期 和 时 间 库 、Transport 模 块 、 线 程 池 、 模 块 、Netty 通 信 框 架 、 缓 存 、 分 布 
式 、Zen 发 现 机 制 、 联 合 搜索 和 JVM 字 节 码 等 。 


第 5 章 提高 搜索 相关 性 ， 主 要 介绍 了 向 量 空间 检索 模型 、BM 25 检 索 模 型 、 学 习 评分 、 查 询 意图 识别 和 图 像 特 征 提升 检索 体验 等 内 容 。 


第 6 章 搜索 界面 开发 ， 涵 盖 的 主要 内 容 包括 使 用 Searchkit 实 现 搜索 界面 ; Spring Boot 入 门 ; Java 模 板 引 警 Pebble 介 绍 ; 通过 Spring-data-elasticsearch 项 目 访问 Elasticsearch; REST 基 本 概念 ; 使 
Vue.js 开 发 搜索 界面 ;使 用 Vue.js Paginator 插 件 实现 翻 页 ; 实现 搜索 接口 ; Suggester 搜 索 词 提示 ; Word2vec 挖 掘 相 关 搜 索 词 ;部署 网 站 ; 使 用 Rust 开 发 搜索 界面 等 。 


第 7 章 Elastic 栈 系统 监控 ， 主 要 介绍 了 使 用 Elasticsearch 和 相关 软件 实现 系统 监控 ， 包 括 管理 Elasticsearch 集 群 、Logstash 数 据 处 理工 具 、Filebeats 文 件 收集 器 、 消 息 过 期 、Kibana 可 视 化 平台 、 
Flume 日 志 收集 系统 、Kafka 分 布 式 流 平台 和 Graylog 日 志 管理 平台 等 内 容 。 


第 8 章 案例 分 析 ， 主 要 介绍 了 双语 句 对 搜索 、 内 容 管 理 系统 站 内 检索 ， 以 及 使 用 Elasticsearch 搜 索 公开 的 药物 临床 试验 项 目 信息 等 几 个 案例 。 


本 书 读者 对 象 
“ 信息 检索 技术 爱好 者 ; 
“ 搜索 引擎 开发 人 员 ; 
“ 搜索 引擎 优化 (SEO) 人 员 ; 
“ 从 事 算 法 研究 的 技术 人 员 ; 


* 高 等 院 校 理工 科 专 业 的 学 生 和 老师 。 


本 书 配套 资源 及 获取 方式 


为 了 方便 读者 高 效 学 习 ， 本 书 特意 提供 了 以 下 配套 资源 : 
.本 书 配套 教学 PPT; 
. 本 书 源 代码 文件 ; 


“ 本 书 涉及 的 一 些 开发 工具 的 安装 包 。 


这 些 配套 资源 需要 读者 自行 下 载 ， 请 登录 机 械 工业 出 版 社 华章 公司 的 网 站 www.hzbook.com， 搜 索 到 本 书 ， 然 后 在 页 面 上 的 “资料 下 载 ”模块 下 载 即 可 。 


本 书 作者 


本 书 由 罗 刚 主笔 编写 ， 其 他 参与 编写 的 人 员 有 张 子 完 、 沙 靶 、 柳 若 边 、 崔 智 杰 、 石 天 盈 、 张 继 红 、 罗 庭 亮 。 


在 此 感谢 我 的 家 人 、 同 寻 


hzbook2017@163.com。 


及 所 有 在 本 书写 作 过 程 中 提供 过 帮助 的 人 ! 另外 ， 本 书 在 编写 过 程 中 参考 了 一 些 开源 代码 ， 在 此 对 相关 作者 也 一 并 表示 感谢 ! 


虽然 我 们 对 书 中 所 述 内 容 都 尽量 核实 ， 并 进行 了 多 次 校对 ， 但 由 于 写作 时 间 仓 促 ， 加 之 作者 水 平 所 限 ， 书 中 可 能 还 存在 琉 ) 


局 和 错误 之 处 ， 居 请 广大 读者 批评 、 指 正 。 联 系 我 们 ， 请 发 电子 邮件 到 


罗 刚 


于 北京 


第 1 章 Elasticsearch 开 发 搜索 引擎 应 用 


信息 时 代 ， 可 供 获取 的 数据 大 量 涌现 。 那 么 如 何 通 过 搜索 引擎 从 这 些 数 据 中 挖 握 出 有 价值 的 数据 呢 ?” 正 是 基于 这 个 需求 ， 开 源 大 数据 搜索 引擎 Elasticsearch 应 运 而 生 。 


1.1 搜索 引擎 开发 需求 


“ 支持 微服 务 : 微服 务 架 构 模 式 可 以 用 来 构建 复杂 应 用 。 


: 弹性 负载 : 通过 将 搜索 访问 请 求 自动 分 发 到 多 个 服务 节点 上 来 扩展 搜索 系统 对 外 的 服务 能 力 ， 实 现 应 用 程序 容错 。 


“ 容易 部 署 : 即 集成 的 功能 ， 不 依赖 第 三 方 的 分 布 式 应 用 程序 协调 服务 。 


“ 安全 控制 : 控制 非法 名 


条 外 部 访问 。 


“ 管理 界面 : 管理 搜索 集群 的 健康 状况 ， 方 便 查看 数据 分 布 情况 等 。 


1.2 “准备 开发 环境 


Elasticsearch 采 用 Java 语 言 开发 ， 所 以 我 们 需要 先 准 备 基本 的 Java 开 发 工具 JDK， 然 后 再 准备 运行 在 JDK 上 的 Eclipse。 


1.2.1 Windows 命 令 行 cmd 


假设 有 一 个 标准 件 工厂 ， 


在 车 间 生 产 产 品 ， 在 工地 使 用 这 些 产品 。 与 之 类 似 ， 一 般 是 在 集成 开发 环境 中 开发 软件 ， 如 果 在 Windows 操 作 系统 中 运行 开发 的 软件 ， 则 往往 通过 Windows 命 令 行 来 运行 。 


在 图 形 化 用 户 界面 出 现 之 前 ， 人 们 就 是 用 命令 行 来 操作 计算 机 的 。Windows 命 令 行 是 通过 Windows 系 统 目录 下 的 cmd.exe 程 序 执行 的 。 执 行 这 个 程序 最 直接 的 方式 是 找到 该 程序 ， 然 后 双击 ， 但 
cmd.exe 程 序 并 没有 桌面 快捷 启动 图 标 ， 所 以 启动 时 比较 麻烦 。 


鉴于 此 ,可 以 在 “开始 ” 


菜单 的 运行 窗口 中 直接 输入 程序 名 ， 回 车 后 运行 这 个 程序 。 具 体操 作 方法 : 单 击 “开始 ”| “运行 ”命令 ， 


+R 键 ， 打 开 运 行程 序 窗口 。 然 后 输入 程序 名 cmd 后 单 击 “ 确 定 ”按钮 ， 弹 出 命令 提示 窗口 。 因 为 可 以 通过 这 个 黑 


说 明 : Console， 即 控制 台 。 


物 控 器 上 有 控制 面板 ， 更 复杂 的 设备 往往 有 控制 台 。 例 如 ， 一 


是 一 个 上 面 有 很 多 控制 按钮 的 面板 。 在 计算 机 里 ， 把 直接 连接 在 计算 机 上 的 键盘 和 显示 器 叫做 控制 台 。 


打开 资源 管理 器 中 的 运行 程序 窗口 ;或 者 直接 使 用 快捷 键 一 一 窗口 键 


屏 的 窗口 直接 输入 相应 命令 来 控制 计算 机 ， 所 以 也 称 : 


为 控制 台 窗口 。 


台 机 床 或 者 数控 设备 的 控制 箱 ， 通 常会 被 称 为 控制 台 。 顾 名 思 义 ， 控 制 台 就 是 一 个 直接 控制 设备 的 台面 ， 往 往 


通常 用 扩展 名 来 表示 文件 的 类 别 ， 如 exe 表 示 可 执行 文件 。 文 件 名 称 由 文件 名 和 扩展 名 组 成 ， 文 件 名 和 扩展 名 之 间 由 小 数 点 分 隔 ， 如 java.exe。 


当 我 们 建立 或 修改 一 个 文件 时 ， 必 须 向 Windows 指 明 该 文件 的 位 置 。 文 件 的 位 置 由 三 部 分 组 成 : 驱动 器 、 文 件 所 在 路 径 和 文件 名 。 路 径 是 由 一 系列 路 径 名 组 成 的 ， 这 些 路 径 名 之 间 用 人 ”分 开 ， 如 C: 
\Program FilesVavaNjdk1.8.0 03\binNava.exe。 


开始 的 路 径 一 般 是 C: \UsersAdministrator， 就 像 公园 的 地 图 上 往往 会 标 出 游客 的 当前 位 置 。Windows 


可 以 用 cd 命令 改变 当前 路 径 ， 例 如 ， 改 变 到 C: \Program FilesVavaNjdk1.8.0 03 路 径 ， 可 以 用 如 下 命令 : 


命令 行 


也 有 当前 路 径 的 概 


念 ， 如 C: \Users\Administrator 就 是 当前 路 径 。 


C:\Users\Agdministrator>cd C:\Program Files\Java\jdk1.8.0_03 


如 果 输 入 “cd d: ”命令 


， 这 样 的 效果 是 改变 当前 路 径 到 “d: ”目录 下 。 


C:\Users\Administrator>d: 


所 以 切换 盘 符 不 能 使 用 cd 命令 ， 而 是 直接 输入 盘 符 的 名 称 。 例 如 想 要 切换 到 D 盘 ， 可 以 使 用 如 下 命令 : 


系统 约定 从 指定 的 路 径 找 可 执行 文件 ， 这 个 路 径 通 过 PATH 环 境 变 量 指定 。 


分 号 隔 开 。 例 如 ，PATH 环 境 变量 可 能 对 应 这 样 的 值 : 


环境 变量 是 一 个 “变量 名 = 变量 值 ”的 对 应 关系 ， 每 一 个 变量 都 有 一 个 或 者 多 个 值 与 之 对 应 。 如 果 是 多 个 值 ， 则 这 些 值 之 间 
“C: \Windows\system32; C: \Windows”， 表 示 Windows 会 从 C: \WindowsNsystem32 和 C: \Windows 两 个 路 径 下 寻找 可 执行 文件 。 


设置 或 者 修改 环境 变量 的 具体 操作 步骤 是 : 首先 在 Windows 桌 面 右 击 “我 的 电脑 ”， 在 弹出 的 快捷 菜单 中 选择 “属性 ”命令 ， 在 弹出 的 对 话 框 中 选择 “高 级 ”选项 ， 然 后 在 弹出 的 对 话 框 中 单 击 “ 环 境 
变量 ”按钮 ， 在 弹出 的 对 话 框 中 设置 用 户 变量 或 者 系统 变量 ， 最 后 再 设置 环境 变量 PATH 的 值 。 


如 果 是 用 Windows 7 以 上 的 操作 系统 ， 可 能 找 不 到 “我 的 电脑 ”快捷 图 标 ， 其 实 打 开 桌面 上 “我 的 电脑 ” ， 就 是 运行 资源 管理 器 。 打 开 资 源 管理 器 的 另外 一 种 方法 是 : 按 住 键盘 上 的 窗口 键 不 放 ， 然 后 
再 按 E 键 之 后 选择 “属性 ”标签 ， 后 面 的 操作 相同 ， 不 再 歼 述 。 


环境 变量 设置 完成 后 ， 需 要 重新 启动 命令 行 才能 设置 生效 。 为 了 检查 环境 变量 是 否 已 设置 正确 ， 可 以 在 命令 行 中 显示 指定 环境 变量 的 值 ， 需 要 用 到 echo 命 令 。echo 命 令 用 来 显示 一 段 文 字 。 例 如 : 


C:\Users\Administrator>echo Hello 


Hello 


如 果 要 引用 环境 变量 的 值 ， 可 以 用 前 后 两 个 百 分 号 把 变量 名 包围 起 来 ， 如 “% 变 量 名 %”。 例 如 ， 使 用 echo 命 令 显示 环境 变量 PATH 中 的 值 : 


C:\Users\Administrator>echo %PATHS 


1.2.2 ”在 Windows 下 使 用 Java 


本 节 首 先 介绍 如 何 安 装 JDK， 然 后 介绍 如 何在 命令 行 开发 Java 程 序 。Java 开 发 环境 简称 JDK (Java Development Kit) ，JDK 包 括 Java 运 行 环境 (Java Runtime Envirnment) 、 一 堆 Java 工 具 和 Java 基 
础 类 库 。 可 以 从 Java 官 方 网 站 http://www.oracle.com/technetwork/java/index.html 下 载 得 到 JDK， 注 意 不 是 http://www.java.com 下 的 Java 虚 拟 机 。 


进入 官网 后 ， 选 择 下 载 Java SE， 也 就 是 Java 的 标准 版 本 ， 然 后 选择 Latest Release 也 就 是 最 新 发 布 的 安装 程序 ， 完 整 的 JDK 版 本 号 中 包括 大 版 本 号 和 小 版 本 号 。 例 如 1.7.0 中 的 大 版 本 号 是 7， 小 版 本 号 是 
0， 而 1.8.22 的 大 版 本 号 是 8， 小 版 本 号 是 22。 因 为 可 以 在 Windows 或 Linux 等 多 种 操作 系统 环境 下 开发 Java 程 序 ， 所 以 有 多 个 操作 系统 的 JDK 版 本 可 供 选择 。 


因为 JDK 是 有 版 权 的 ， 所 以 需要 接受 许可 协议 (Accept License Agreement) 后 才能 下 载 。 如 果 是 在 Windows 环 境 下 开发 ， 就 选择 Windows x86， 这 样 会 下 载 类 似 jdk-8u121-windows-i586.exe 这 
样 的 文件 ， 下 载 完毕 后 ， 使 用 默认 方式 安装 JDK 即 可 。 


JDK 相 关 的 文件 都 放 在 一 个 叫做 JAVA_HOME 的 根 目录 下 。JDK 根 目录 的 命名 格式 是 : C:\Program Files\Java\jdk1.8.0_<version> 最 后 以 一 个 数字 类 型 的 版 本 号 结尾 ， 如 10 或 者 21 等 。 


因为 一 台 计 算 机 上 可 以 安装 多 个 JDK 和 JVM ， 为 了 避免 混乱 ， 可 以 新 增 环境 变量 JAVA_HOME， 指 定 一 个 默认 使 用 的 JDK。 


使 用 echo 命 令 检查 环境 变量 JAVA_HOME: 


>echo $JRAVR_ HOMES 
C:\Program Files\Java\jdk1.8.0 10 


Eclipse 集 成 开发 环境 只 需要 JAVA_HOME 这 一 个 环境 变量 即 可 。 如 果 要 检查 JAVA_HOME 是 否 已 经 正确 设置 ， 使 用 如 下 命令 后 显示 虚拟 机 的 版 本 号 就 表示 设置 正确 了 。 


>"%JAVA HOMES%"\bin\java -Version 

java version "1.8.0_10-rc" 

Java (TM) SE Runtime Environment (build 1.8.0 10-rc-b28) 

Java HotSpot (TM) Client WM (build 11.0-bl5, mixed mode, sharing) 


如 果 还 需要 在 Windows 控 制 台 下 执行 Java 程 序 ， 则 需要 访问 编译 源 代 码 的 javac.exe 或 者 执行 class 文 件 字 节 码 的 java.exe。 环 境 变量 PATH 指定 了 从 哪里 找 java.exe 这 样 的 可 执行 文件 ， 可 以 通过 多 个 路 
径 查找 可 执行 文件 ， 这 些 路 径 以 分 号 隔 开 。 如 果 想 在 命令 行 运行 java 程序， 还 可 以 修改 已 有 的 环境 变量 PATH， 增 加 Java 程 序 所 在 的 路 径 。 例 如 ，C: \Program FilesJava\jdk1.8.0_10\bin。 


然后 检查 环境 变量 PATH : 


>echo %PATHS 


如 果 要 检查 PATH 是 否 已 经 正确 设置 ， 只 要 在 任何 路 径 下 输入 javac 命 令 都 能 显示 javac 的 用 法 ， 就 表示 设置 正确 了 ， 也 可 以 用 第 一 个 java 程序 试 验 一 下 。 


新 建 一 个 Java 项 目 后 ， 在 这 个 项 目的 src 路 径 下 新 建 一 个 叫做 Search 的 Java 类 : 


Public class Search { 
public static void main (String args[]) { 
System.out .println("Hello Search!"); 
二 


运行 结果 如 下 : 


>javac Search.java 
>java Search 


看 运行 结果 是 否 显示 Hello Search! 


最 简单 的 方法 是 可 以 使 用 avac 构 建 出 class 文 件 ， 对 于 复杂 的 项 目 ， 一 般 是 使 用 工具 构建 项 目 源 代码 。Gradle 就 是 一 个 可 用 于 构建 Java 项 目的 工具 ，Elasticsearch 本 身 也 是 使 用 Gradle 构 建 。 可 以 下 载 
二 进 制 文件 来 安装 Gradle， 网 址 如 下 : 


https://services.gradle.org/distributions/gradle-3.5-bin.zip。 


在 Windows 上 自动 设置 Gradle 环 境 变 量 的 脚本 如 下 : 


set input=F:\soft\gradle-3.5 
echo gradle 路 径 为 Sinput% 
set gradlePath=%input%® 

: :创建 GRADLE _HOME 

wmic ENVIRONMENT create 


name="GRADLE HOME.",username="<system>",VariableValue="%$javaPath%®" 


call set xx=%Paths;%gradlePaths\bin 
: :echoO %xx$ 


: :将 环境 变量 中 的 字符 重新 赋值 到 path 中 


wmic ENVIRONMENT where "name='Path' and username='<system>'" set 


VariableValue="%xx%" 
pause 


打开 控制 台 并 运行 gradle-v 命 令 以 显示 版 本 来 验证 安装 是 否 成 功 ， 例 如 : 


C:\Users\Administrator>gradle -v 


显示 如 下 输出 : 

Gradle 3.5 

Build time: 2017-04-10 13:37:25 UTC 

Revision: b762622a1l85d59ce0cfc9cbc6ab5dd22469e18a6 

Groovy: “0 

Ant: Apache Ant (TM) version 1.9.6 compiled on June 29 2015 
JUJVM: 1.8.0 121 (Oracle Corporation 25.121-b13) 

OS: Windows Server 2008 6.0 x86 


可 以 在 Gradle 构 建 中 使 用 标准 和 定制 的 Ant 任 务 ， 就 像 在 Ant 自 身 中 使 用 一 样 。 另 外 ， 可 以 导入 现 有 的 Ant 脚 本 ， 就 像 下 面 这 样 简单 


ant .importBuild 'build.xml' 


1.2.3 Linux 终 端 


虽然 使 用 Linux 操 作 系统 办 公 的 人 不 多 ， 但 是 很 多 大 数据 应 用 都 运行 在 Linux 操 作 系统 下 。 


首先 在 Windows 下 安装 Chrome 浏 览 器 ， 然 后 可 以 通过 网 址 http://sshy.us/ 登 录 Linux 服 务 器 。 如 果 是 用 root 账 户 登 录 ， 则 终端 提示 符 是 “#”， 否 则 终端 提示 符 是 “$”。 


如 果 有 现成 的 Linux 服 务 器 可 用 ， 可 以 使 用 支持 SSH 协 议 的 终端 仿真 程序 SecureCRT 连 接 到 远程 Linux 服 务 器 上 ， 因 为 可 以 保存 登录 密码 ， 所 以 比较 方便 。 除 了 SecureCRT， 还 可 以 使 用 开源 软件 


PuTTY (http://www.chiark.greenend.org.uk/~sgtatham/putty) ， 以 及 可 以 保存 登录 密码 的 PuTTY Connection Manager。 


使 用 VMware、Linux 可 以 运行 在 Windows 系 统 下 ，VMware 可 以 让 Linux 运 行 在 虚拟 机 中 ， 而 且 不 会 破坏 原来 的 Windows 操 作 系统 。 


首先 要 准备 好 VMware， 当 然 仍然 需要 Linux 光 盘 文件 。 就 好 像 华山 派 有 剑 宗 和 气 宗 ，Linux 也 有 很 多 种 版 本 ， 例 如 RedHat、Ubuntu 及 SUSE， 这 里 选择 CentOSs (http://www.centos.org/) 。 


也 可 以 在 Windows 下 安装 Cygwin， 使 用 它 来 练习 Linux 的 常用 命令 。 


如 果 需 要 安装 软件 ， 可 以 下 载 RPM 安 装 包 ， 然 后 使 
软件 包 。 


RPM 安装 。 但 操作 系统 对 应 的 RPM 安装 包 找 起 来 比较 麻烦 ， 一 个 软件 包 可 能 依赖 其 他 的 软件 包 ， 为 了 安装 一 个 软件 可 能 需要 下 载 多 个 它 所 依赖 的 


为 了 简化 安装 操作 ， 可 以 使 用 Yum (Yellow dog Updater，Modified) 来 安装 ， 也 称 其 为 黄 狗 升级 管理 器 。Yum 会 自动 计算 出 程序 之 间 的 相互 关联 性 ， 并 且 计算 出 完成 软件 包 的 安装 需要 哪些 步 又， 


这 样 在 安装 软件 时 ， 不 会 再 被 那些 关联 性 问题 所 困扰 。 


Yum 会 自动 从 网 络 上 下 载 并 安装 软件 ， 有 点 类 似 于 360 软 件 管家 ， 但 是 不 会 有 商业 倾向 的 推销 软件 。 例 如 ， 安 装 支持 wget 和 rzsz 命 令 的 软件 有 : 


#yum install wget 
#yum install lrzsz 


可 以 使 用 Nodepad++ 自 带 的 插件 NppFTP 编 辑 Linux 下 的 文件 。 有 些 生产 环境 的 集群 通过 跳板 机 才能 接触 到 。 为 了 方便 在 服务 器 端 管理 和 开发 Elasticsearch 相 关 应 用 ， 可 以 采 
Micro (https://github.com/zyedidia/micro) 这 样 的 终 


端 文本 编辑 器 。 


可 以 使 用 DNF 安 装 Micro， 在 安装 DNF 前 ， 必 须 先 安装 并 启用 epel-release 依 赖 。 使 用 Yum 安 装 epel-release 的 命令 如 下 : 


# yum install epel-release 


如 果 没 有 DNF 安 装 工具 软件 ， 也 可 以 直接 安装 Micro 的 预 编译 版 本 。 使 用 wget 下 载 Micro: 


#wget https://github.com/zyedidia/micro/releases/download/nightly/ 


micro-1.3.4-67-linux64.tar.gz 
#tar -xf ./micro-1.3.4-67-linux64.tar.gz 


编辑 /etc/profile 配 置 文件 ， 增 加 Micro 所 在 的 路 径 到 PATH 环 境 变 量 /home/soft/micro-1.3.4-67。 


# ./micro /etc/profile 


说 明 : 和 Windows 不 同 ，Linux 操 作 系 统 下 的 路 径 名 之 间 用 “/” 分 开 。./micro-1.3.4-67-linux64.tat.gz 表 示 当 前 路 径 下 的 micro-1.3.4-67-linux64.tar.gz 文 件 。 


增加 如 下 命令 : 


export PATH=/home/soft/micro-1.3.4-67:$PATH 


可 以 使 用 Micro 来 编辑 配置 文件 : 


#micro /etc/security/limits.conf 


保存 文件 后 ， 按 Ctrl+ Q 组 合 键 退出 。 很 多 Linux 环 境 都 带 有 Python， 如 果 版 本 太 旧 ， 读 者 可 以 自行 安装 。 


# yum install Python34 


下 面 先 看 下 当前 版 本 安装 在 了 哪个 目录 下 : 


# which Python 


输出 结果 如 下 : 


/usr/bin/python 


一 般 使 用 Bash 将 用 户 可 读 的 命令 转换 成 计算 机 可 理解 的 命令 ， 并 控制 命令 执行 。 


Bash 脚 本 中 使 用 的 特殊 字符 有 : 


#:Comments 
~:home directory 


在 屏幕 上 打印 “Hello” : 


echo "Hello" 


将 ABC 分 配给 a: 


a=ABC 


输出 a 的 值 : 


echo $a 


在 屏幕 上 打印 ABC。 


将 ABC.log 分 配给 b: 


b=$a.1log 


输出 b 的 值 : 


# echo $b 


在 屏幕 上 输出 : 


ABC.10g 


把 文件 ABC.log 中 的 内 容 写 入 testfile: 


# cat $b > testfile 


这 里 把 cat 命 令 的 输出 重 定向 到 testfile。 


我 们 可 以 把 重复 执行 的 Shell 脚 本 写 入 一 个 文本 文件 中 。 和 Windows 不 同 ，Linux 不 以 文件 后 缀 名 作为 系统 识别 文件 类 型 的 依据 ， 但 是 可 以 作为 我 们 识别 文件 的 依据 ， 因 此 我 们 可 以 将 脚本 文件 以 .sh 结 


可 以 使 用 Micro 创 建 一 个 类 似 script.sh 的 文件 micro script.sh， 创 建 好 脚本 文件 后 就 可 以 在 文件 内 有 


script.sh。 


在 创建 的 脚本 文件 中 输入 以 下 代码 并 保存 退出 。 


脚本 语言 要 求 的 格式 编写 脚本 程序 了 。 此 外 ， 还 可 以 使 用 touch 命 令 先 创建 一 个 空 文件 touch 


#! /bin/bash 
echo "hello world!" 


然后 添加 脚本 文件 的 可 执行 运行 权限 : 


# chmod +x script.sh 


运行 文件 ./script.sh， 结 果 如 下 : 


hello world! 


Shell 脚 本 中 用 “# ”表示 注释 ， 相 当 于 C 语 言 的 “//” 注 释 。 但 如 果 “#” 位 于 第 一 行 开头 并 且 是 “#! ” ( 称 为 Shhebang) 则 例外 ， 它 表示 该 脚本 使 用 后 面 指定 的 解释 器 /bin/sh 解 释 执行 。 每 个 脚本 程 


序 必须 在 开头 包含 Shebang 语 句 。 


例如 ， 使 用 参数 n 检 查 语法 错误 : 


# bash -n ./test.sh 


如 果 Shell 脚 本 中 有 语法 错误 ， 则 会 提示 错误 所 在 行 ， 否 则 不 输出 任何 信息 。 


智能 系统 需要 根据 不 同 的 外 部 情况 做 出 不 同 的 处 理 ， 所 以 需要 使 用 流程 控制 语句 。 下 面 简单 介绍 一 下 if 和 case 语 句 。 


if 语 句 的 语法 如 下 : 


if [ condition ] then 
Cormmand1 


elif# 和 else if 等 价 : 


then 
commangd2 
else 
default-command 
En 


说 明 : 这 里 的 fi 是 if 反 过 来 写 的 。 


例如 ， 为 了 判断 某 个 命令 是 否 存在 ， 可 以 使 用 以 下 格式 : 


if which Programname >/dev/null; then 
echo exists 

else 
echo does not exist 

£1i 


如 判断 Yum 是 否 存在 : 


if which yum >/dev/null; then 
echo "exists" 

else 
echo "does not exist" 

£1i 


case 语 句 的 语法 如 下 : 


case 字符 串 in 
模式 1) 
语句 
模式 2) 
语句 
默认 执行 的 语句 


浊 


x 


esac 


这 里 的 esac 就 是 case 反 过 来 写 。 例 如 : 


extension="png" 
Case "$extension" in 
"jpg"l"jpeg") ， 
echo "It's image with jpeg extension." 
2 
"png") 
echo "It's image with png extension." 
?7 
"gif") 
echo "Oh, it's a giphy!" 
echo "Woops! It's not image!" 


esac 


这 里 使 用 “|” 把 jpg 和 jpeg 这 两 个 模式 连接 到 了 一 起 。 


1.2.4 在 Linux 下 使 用 Java 


本 节 首先 安装 JDK， 然 后 介绍 如 何在 Linux 终 端 开发 Java 程 序 。 


使 用 wget 下 载 JDK 安 装 包 : 


#wget -c --header "Cookie: oraclelicense=accept-securebackup-cookie" 
http://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4Aff2b 
6607d096fa80163/jdk-8u131-linux-x64.rpm 


然后 使 用 RPM 安装 JDK， 命 令 如 下 : 


# rpm -i ./jdk-8u131-linux-x64.rpm 


验证 Java 安 装 是 否 成 功 ， 输 入 如 下 命令 : 


#java -Version 


如 果 安 装 成 功 ， 则 输出 如 下 结果 : 


java version "1.8.0 131" 
Java(TM) SE Runtime Environment (build 1.8.0 131-bl1 
Java HotSpot (TM) 64-Bit Server WM (build 25.131-bll, mixed mode 


为 了 自动 构建 Java 源 代码 ， 需 要 安装 Maven。 首 先 下 载 Maven 安 装 文件 : 


# wget 


http://mirrors.shuosc.org/apache/maven/maven-3/3.5.2/binaries/ 
apache-maven-3.5.2-bin.tar.gz 


然后 解压 安装 文件 : 


# tar -xzf apache-maven-3.5.2-bin.tar.gz 


把 安装 路 径 改 成 /usr/local/apache-maven: 


# mv apache-maven-3.5.2 /usr/local/apache-maven 


修改 配置 文件 /etc/profile 设 定 变量 MAVEN_HOME 的 值 ， 并 把 mvn 所 在 的 路 径 加 入 到 PATH 变量 中 ， 也 就 是 增加 如 下 命令 行 : 


export MAVEN HOME=/usr/local/apache-maven 
export PATH=$MAVEN HOME/bin:$PATH 


然后 安装 Gradle。 首 先 下 载 安装 文件 gradle-3.5-bin.zip: 


# wget https://services.gradle.org/distributions/gradle-3.5-bin.zip 


创建 Gradle 软 件 存放 的 路 径 : 


# mkdir /opt/gradle 


解压 缩 gradle-3.5-bin.zip 到 /opt/gradle 目 录 下 : 


# unzip -d /opt/gradle gradle-3.5-bin.zip 


丛 查 解压 缩 出 来 的 文件 : 


# ls /opt/gradle/gradle-3.5 
LICENSE NOTICE bin getting-started.html init.d lib media 


把 gradle 所 在 的 路 径 加 入 到 PATH 变 量 中 : 


export PATH=$PATH:/opt/gradle/gradle-3.5/bin 


在 Linux 终 端 输入 以 下 命令 验证 是 否 成 功 安装 : 


# gradle -v 


1.2.5 “Eclipse 集成 开发 环境 


就 像 做 实验 有 专门 的 试验 台 ， 开 发 软件 也 有 专门 的 集成 开发 环境 。 开 发 Java 程序 最 流行 的 工具 是 Eclipse (网 址 是 http://www.eclipse.org) 。 


Eclipse 也 有 很 多 版 本 ， 可 以 选择 最 简单 的 一 个 版 本 Eclipse IDE for Java Developers。Eclipse 是 绿色 软件 ， 无 须 安装 ， 解 压 后 就 可 以 直接 使 用 ， 在 Windows 下 ， 双 击 后 就 可 以 解压 文件 。 如 果 需 要 专门 
的 解压 软件 ， 推 荐 使 用 7z (网 址 是 http://www.7-zip.org/) 。 


Eclipse 默认 是 英文 界面 ， 如 果 读者 习惯 用 中 文 界面 的 话 可 以 从 这 个 网 站 http://www.eclipse.org/babel/downloads.php 中 下 载 支持 中 文 的 语言 包 。 


Eclipse 把 软件 按 项 目 进行 管理 ， 每 个 项 目 都 有 自己 的 .classpath 文 件 ， 指 定 了 源 代码 路 径 ， 编 译 后 将 输出 文件 的 路 径 及 该 项 目 引 


的 jar 包 的 路 径 。 一 个 简单 的 .classpath 文 件 内 容 如 下 : 


<?xml Version="1.0" encoding="UTF-8"?> 
<classpath> 

<classpathentry kind="src" path="src"/> 
<classpathentry kind="src" path="test"/> 
<classpathentry kind="con" 


path="org.eclipse.jdt.launching.JRE CONTAINER/org.eclipse.jdt.internal. 
debug.ui.launcher.StandardVMType/JavaSE-1.8"/> 

<classpathentry kind="lib" path="1lib/fastjson-1.2.7.jar"/> 
<classpathentry kind="output" path="bin"/> 

</classpath> 


为 了 方便 在 其 他 计算 机 上 正常 开发 ，classpathentry 中 的 路 径 一 般 使 用 相对 路 径 而 不 是 绝对 路 径 。 如 果 是 绝对 路 径 ， 也 可 以 将 文件 路 径 手动 修改 为 相对 路 径 。 


安装 Eclipse 的 Gradle 揪 件 。 首 先 从 https://github.com/eclipse/buildship 网 站 中 找到 安装 地 址 ， 然 后 把 文件 解压 缩 到 eclipse\dropins 目 录 下 就 可 以 了 ; 也 可 以 在 Eclipse 界 面 上 安装 ， 选 择 菜单 栏 
的 “帮助 ”| “安装 新 软件 ”命令 ， 然 后 输入 插件 地 址 即 可 。 


1.3 了 解 Elasticsearch 


Elasticsearch 把 输入 文档 和 复杂 的 查询 语法 及 输出 的 查询 结果 都 封装 成 了 XContent， 这 样 数据 就 可 以 采用 XML 或 者 JSON 格 式 表 示 成 可 读 的 形式 。JSON 表 示 形 式 更 简短 ， 所 以 Elasticsearch 采 用 JSON 
格式 来 表示 XContent。 因 为 要 使 用 SON 和 Elasticsearch 服 务 端 打交道 ， 所 以 本 节 将 介绍 JSON。 


1.3.1 JSON 数 据 格 式 


JSON (Javascript Object Notation) 是 一 种 轻 量 级 的 数据 交换 格式 ， 不 仅 易于 人 们 阅读 和 编写 ， 而 且 也 易于 计算 机 解析 和 生成 ， 可 以 用 它 传输 由 名 称 / 值 对 和 数组 数据 类 型 组 成 的 数据 对 象 。 一 些 结 
构 复杂 的 数据 也 可 以 采用 JSON 格 式 来 表示 ， 如 散 列表 中 的 值 就 是 数组 。 


JSON 的 基本 数据 类 型 介绍 如 下 。 

: 数字 : 有 符号 的 十 进 制 数字 ， 可 能 包含 小 数 部 分 ， 也 可 能 使 用 指数 已 表示 法 ， 但 不 能 包括 非 数 字 ， 如 NaN。 该 格式 不 区 分 整数 和 浮 点 数 。 
“ 字符 串 : 0 个 或 多 个 Unicode 字 符 的 序列 。 字 符 囊 用 双 引 号 分 隔 ， 并 支持 反 斜 杠 转 义 语法 。 

' 布尔 值 : 为 true 或 false 的 任 一 值 。 

“ 数组 : 0 个 或 多 个 值 的 有 序列 表 ， 每 个 值 可 以 是 任何 类 型 。 数 组 使 用 方 括号 符号 ， 元 素 以 过 号 分 隔 。 


“ 对象: 名 称 / 值 对 的 无 序 集合 ， 其 中 名 称 (也 称 为 键 ) 是 字符 事 。 由 于 对 象 旨 在 表示 关联 数组 ， 推 荐 每 个 键 在 对 象 内 是 唯一 的 。 对 象 用 大 括号 分 晤 ， 并 使 用 到 号 分 隔 每 对 ， 而 在 每 一 对 中 ， 用 冒号 
将 键 或 名 称 与 其 值 分 隔 开 。 


一 


“ null: 一 个 空 值 ， 使 用 单词 null。 


一 个 表示 Elasticsearch 版 本 的 对 象 如 下 : 


"version" : { 
mar .和 , 上 
"build hash" 

"build date" : "2017-03-23T03:31:50.6522", 
"build snapshot" : false, 
"ucene version™" : "6,.4,1™" 


可 以 使 用 Elasticsearch 提 供 的 API 构 建 JSJON 串 。 


例如 ， 在 Eclipse 中 创建 一 个 Gradle 项 目 ， 首 先 引 入 jackson 相 关 的 jar 包 ， 然 后 在 build.gradle 文 件 中 增加 依赖 库 : 


runtime group: "org.elasticsearch'，name: 'elasticsearch'，Version: '5.6.2' 


最 后 运行 如 下 代码 : 


XContentBuilder b = XContentFactory.jsonBuilder () .startObject (); 
pb.field("title"，,，" 新 闻 标题 "); 

pb.field ("body"，" 内 容 "); 

b.endobject (); 

// 从 XContent 到 JSON 

String json = b.bytes() .utf8ToString(); 

System.out .println (json); 


输出 结果 如 下 : 


{"title":" 新 闻 标题 ", "body":" 内 容 "} 


1.3.2 ”Elasticsearch 基 本 概念 


Lucene 是 由 一 个 Java 语 言 开发 的 开源 全 文 检索 引擎 工具 包 。 把 Lucene 用 Netty 封 装 成 服务 ， 使 用 JSON 访 问 就 是 Elasticsearch。 


Elasticsearch 内 置 了 对 分 布 式 集群 和 分 布 式 索引 的 管理 ， 所 以 相对 Solr 来 说 ， 不 需要 额外 安装 ZooKeeper， 其 更 容易 分 布 式 部 署 。 使 用 Elasticsearch 的 搜索 系统 整体 架构 图 如 图 1-1 所 示 。 


Stk 
文档 


数据 库 


NBA 搜索 


图 1-1 Elasticsearch 的 外 部 结构 


Elasticsearch 的 每 一 个 运行 实例 称 为 一 个 节点 ， 既 可 以 在 同一 台 计算 机 上 运行 多 个 实例 ， 也 可 以 在 每 台 计算 机 上 只 运行 一 个 实例 。 


在 一 个 分 布 式 系统 里 ， 多 个 Elasticsearch 运 行 实例 可 以 组 成 一 个 集群 (cluster) ， 该 集群 里 有 一 个 动态 选举 出 来 的 主 节点 (master) 。 如 果 主 节点 失败 ， 会 自动 选 出 新 的 节点 作为 主 节点 ， 所 以 不 存在 
单 点 故障 。 


在 同一 个 子 网 内 ， 只 需要 在 每 个 节点 上 设置 相同 的 集群 名 ， 这 些 集群 名 相同 的 节点 会 自动 组 成 一 个 集群 。Elasticsearch 包 含 了 节点 和 节点 之 间 通 信 模 块 及 节点 之 间 的 数据 分 配 和 平衡 模块 。 


为 了 实现 容错 ，Elasticsearch 会 把 查询 文档 集合 分 解 为 多 个 小 的 索引 ， 每 一 个 小 的 索引 就 叫做 分 片 (shards) 。 每 一 个 分 片 都 可 以 有 0 到 多 个 副本 (replicas) ， 而 每 一 个 副本 也 都 是 分 片 的 完整 复制 
品 ， 这 样 也 提高 了 查询 速度 。 


一 旦 Elasticsearch 的 某 个 节点 数据 损坏 或 服务 不 可 用 的 时 候 ， 就 可 以 用 其 他 节点 来 代 蔡 坏 掉 的 节点 ， 以 达到 高 可 用 的 目的 。 当 有 节点 加 入 或 退出 时 ， 主 节点 会 根据 机 器 的 负载 对 索引 分 片 进行 重 新 分 
配 ， 当 “ 挂 掉 ”的 节点 再 次 重新 启动 的 时 候 也 会 进行 数据 恢复 (recovery) 。 


Elasticsearch 通 过 网 关 (Gateway) 来 管理 集群 恢复 ， 可 以 配置 群集 需要 加 入 多 少 个 节点 才能 启动 恢复 数据 。 网 关 配 置 用 于 恢复 任何 失败 的 索引 。 当 节点 月 省 并 重新 启动 时 ，Elasticsearch 将 从 网 关 读 
取 所 有 的 索引 和 元 数据 。 


Transport 代 表 Elasticsearch 内 部 的 节点 或 者 集群 与 客户 端 之 间 的 交互 方式 ， 默 认 使 用 TCP 协 议 进 行 交 互 ， 同 时 支持 HTTP 协 议 (JSON 格 式 ) 、thrift、Servlet、Memcached、ZeroMQ 等 多 种 的 传输 
协议 (通过 插件 方式 集成 ) 。 


为 了 让 集群 在 运行 时 动态 附加 额外 的 功能 ， 可 以 使 用 插件 机 制 加 载 实现 公共 接口 的 程序 集 。Elasticsearch 插 件 用 于 以 各 种 特定 的 方式 扩展 基本 的 Elasticsearch 功 能 。 


1.3.3 HTTP 协议 


中 | 


1-2 所 示 。 


客户 端 通过 HTTP 协 议和 Elasticsearch 服 务 器 打交道 。 客 户 端 发 起 一 个 到 服务 器 上 指定 端口 的 HTTP 请 求 ， 服 务 器 端 按 指定 格式 返回 网 页 或 者 其 他 网 络 资源 ， 如 


HTTP 请 求 localhost 
给 我 所 有 的 文档 


Elasticsearch 


服务 器 


HTTP 响 应 
好 的 ， 它 是 JSON 格 式 的 


图 1-2 HTTP 协 议 示 意图 


就 像 发 快递 需要 收 件 人 的 地 址 一 样 ， 打 开 网 页 也 需要 知道 网 络 资源 的 地 址 。URI 包 括 URL 和 URN， 但 是 URN 并 不 常用 ， 也 很 少 有 人 知道 URN。URL 由 3 部 分 组 成 ， 如 图 1-3 所 示 。 


需要 使 用 DNS 把 主机 名 转换 成 |P 地 址 ， 如 果 没有 配置 DNS 则 不 能 根据 域名 打开 网 站 。 


HTTP 协 议 传输 的 内 容 一 般 是 超 文本 ， 但 也 可 以 是 图 像 等 ， 所 以 还 需要 头 信息 来 描述 内 容 的 格式 等 信息 。 为 了 容易 理解 ， 协 议 头 使 用 文本 描述 而 不 是 二 进 制 格式 。 


客户 端 向 服务 器 发 送 的 请 求 头 包含 请 求 的 方法 、URL、 协 议 版 本 及 请 求 修饰 符 、 客 户 信息 和 内 容 等 。 服 务 器 以 一 个 状态 行 作为 响应 ， 相 应 的 内 容 包括 消息 协议 的 版 本 、 成 功 或 者 错误 编码 、 服 务 器 信 
息 、 实 体 元 信息 及 实体 内 容 等 。 


http://localhost:9200/_cluster/health 


、 六 


http localhost:9200 /_cluster/health 
协议 名 主机 名 和 交口 号 资源 路 径 


1-3 ”URI 分 为 3 部 分 


HTTP 请 求 格式 如 下 : 


<request line> 
<headers> 

<blank line> 
[<request-body>] 


在 HTTP 请 求 中 ， 第 一 行 必须 是 一 个 请 求 行 (request line) ， 用 来 说 明 请 求 类 型 、 要 访问 的 资源 及 使 用 的 HTTP 版 本 ; 紧 接着 是 头 信息 (header) ， 用 来 说 明 服 务 器 要 使 用 的 附加 信息 。 头 信息 之 后 是 
一 个 空 行 ， 在 此 之 后 可 以 添加 任意 的 数据 ， 这 些 附加 的 数据 称 为 主体 (body) 。 


HTTP 规 范 定义 了 8 种 可 能 的 请 求 方法 。 客 户 端 经 常用 到 GET 和 POST， 分 别 说 明 如 下 。 


. GET: 检索 URI 中 标识 资源 的 一 个 简单 请 求 。 例 如 ， 客 户 端 发 送 请 求 GET/_cluster/health HTTP/1.1。 


“ POST: 服务 器 接收 被 写 入 客户 端 输出 流 中 的 数据 请 求 ， 可 以 用 POST 方 法 来 提交 查询 词 等 参数 。 


es 和 二 


介绍 完 客户 端 向 服务 器 的 请 求 消息 后 ， 我 们 再 来 了 解 一 下 服务 器 向 客户 端 返回 的 响应 消息 。 这 种 类 型 的 消息 也 是 由 一 个 起 始 行 、 一 个 或 者 多 个 头 信息 、 一 个 指示 头 信息 结束 的 空 行 和 可 选 的 消息 体 组 


HTTP 的 头 信息 包括 通用 头 、 请 求 头 、 响 应 头 和 实体 头 4 个 部 分 ， 每 个 头 信 息 由 一 个 域名 、 冒 号 (: ) 和 域 值 3 部 分 组 成 。 域 名 与 大 小 写 无 关 ， 域 值 前 可 以 添加 任何 数量 的 空格 符 ， 头 信息 可 以 被 扩展 为 多 
行 ， 在 每 行 开 始 处 使 用 至 少 一 个 空格 或 制 表 符 ， 如 图 1-4 所 示 。 


例如 ， 客 户 端 发 出 GET 请 求 : 


GET /_cluster/health HTTP/1.1 


服务 器 返回 响应 : 


HTTP/1.1 200 OK 

content-encoding: gzip 

content-type: application/json; charset=UTF-8 
transfer-encoding: chunked 


{ 
"active primary shards": 0, 
"active shards": 0 
"active_ shards percent as number": 100.0, 
"cluster name": "es-catalog", 
"delayed unassigned shards": 0, 
"initializing shards": 0 
"number of data nodes": 3， 
"number of in lo fetch" Ee 
"number of nodes": 3， 


"number of pending tasks": 0, 
"relocating shards": 0, 

"status": "green", 

"task max waiting in queue millis": 0, 
"timed out": false, 
"unassigned shards": 0 


HTTP 版 本 | 回 车 换行 


图 1-4 HTTP 请 求 信息 格式 


在 服务 器 返回 的 响应 中 ， 第 一 行 中 的 200 就 是 一 个 状态 码 ， 状 态 码 是 一 个 3 位 数字 的 结果 代码 ， 怜 虫 可 以 用 状态 码 识别 Elasticsearch 服 务 器 处 理 的 情况 。 状 态 码 的 第 一 位 数字 定义 响应 的 类 别 ， 后 两 位 数 
字 有 分 类 的 作用 。 例 如 : 


:1xx， 信 息 响 应 类 ， 表 示 接收 到 请 求 并 且 继续 处 理 。 

“ 2xx， 处 理 成 功 响 应 类 ， 表 示 动 作 被 成 功 接收 、 理 解 和 接受 。 
“3xXX， 重 定向 响应 类 ， 为 了 完成 指定 的 动作 ， 必 须 接 受 进一步 处 理 。 
:4xx， 客 户 端 错误 ， 客 户 请 求 包含 语法 错误 或 者 不 能 正确 执行 。 
“5xx， 服 务 端 错误 ， 服 务 器 不 能 正确 执行 一 个 正确 的 请 求 。 
完整 的 状态 码 如 表 1-1 所 示 。 


表 1-1 HTTP 常 用 状态 码 


状态 代码 代码 描述 


处 理 方式 


200 请 求 成 功 获得 响应 的 内 容 ， 进 行 处 理 


请 求 完成 ,结果 是 创建 了 新 资源 ， 新 创建 资源 的 


0 URI 可 在 响应 的 实体 中 得 到 
202 请 求 被 接受 ， 但 处 理 尚 未 完成 阻塞 等 待 


服务 器 端 已 经 实现 了 请 求 , 但 是 没有 返回 新 的 信 


204 息 。 如 果 客 户 是 用 户 代 理 ， 则 无 须 为 此 更 新 自身 | 丢弃 


的 文档 视图 

该 状态 码 不 被 HTTP/1.0 的 应 用 程序 直接 使 用 , 只 
300 是 作为 3XX 类 型 回应 的 默认 解释 。 存 在 多 个 可 用 
的 被 请 求 资源 
请 求 到 的 资源 都 会 分 配 一 个 永久 的 URL, 这 样 以 
后 就 可 以 通过 该 URL 来 访问 此 资源 


301 


爬虫 中 不 会 遇 到 


车程 序 中 能 够 处 理 , 则 进行 进一步 处 
理 ， 如 果 程 序 中 不 能 处 理 ， 则 丢弃 


重 定向 到 分 配 的 URL 


302 ”| 请 求 到 的 资源 在 一 个 不 同 的 URL 处 临时 保存 。 ”| 重 定向 到 临时 的 URL 


304 请 求 的 资源 未 更 新 
400 非法 请 求 


401 未 授权 


403 丢弃 
404 没有 找到 丢弃 


500 服务 器 内 部 错误 


502 错误 网 关 


503 服务 器 暂时 不 可 用 丢弃 


如 果 请 求 的 地 址 不 存在 ， 则 返回 404 状 态 码 。 


1.4 ”Elasticsearch 安 装 和 配置 


本 节 首先 介绍 如 何在 Windows 和 Linux 系 统 下 安装 Elasticsearch， 然 后 介绍 将 Elasticsearch 作 为 一 个 系统 服务 自动 启动 的 方法 。 


1.4.1 安装 Elasticsearch 


若 在 Windows 系 统 下 安装 Elasticsearch， 可 以 从 网 址 http://www.elasticsearch.org/download/ 上 下 载 安装 包 。 这 里 使 用 的 版 本 为 5.1.2， 得 到 的 下 载 文件 是 elasticsearch-5.1.2.zip。 


然后 将 下 载 的 文件 解压 至 某 个 目录 下 ， 如 D: \elasticsearch-5.1.2。 解 压 后 的 文件 中 ，bin 是 运行 的 脚本 ，config 是 设置 文件 ，lib 中 放 依 赖 的 包 。 到 目录 D: \elasticsearch-5.1.2\bin 下 ， 


elasticsearch.bat。 


如 果 显 示 Java 虚 拟 机 内 存 不 够 ， 则 可 以 在 D: \elasticsearch-5.1.2\configNvm.options 配 置 文件 中 调整 内 存 大 小 。 其 中 ，Xms 参 数 表 示 堆 空间 的 初始 值 ，Xmx 参 数 表 示 堆 空间 的 最 大 值 ， 


最 大 JVM 堆 设置 成 相同 的 值 。 例 如 : 


-Xms2g 
—Xmx2g 


成 功 启动 Elasticsearch 后 ， 在 浏览 器 中 输入 网 址 http:Wlocalhost: 9200/。 启 动 成 功 后 ， 会 在 解压 目录 下 增加 两 个 文件 夹 : data 文 件 夹 件 上 


较 耗 时 ， 所 以 文档 会 被 预先 写 入 到 一 个 日 志 目 录 中 。 


户 通 过 HTTP 协 议 发 送 指令 和 Elasticsearch 交 互 ， 可 以 用 命令 行 工具 CURL 发 送 GET 或 者 POST 命令 与 Elasticsearch 打 交道 。Linux 默 认 已 经 安装 了 CURL 命 令 行 工 


可 以 从 网 站 http://www.paehl.com/open_source/ 上 下 载 一 个 编译 好 的 curl.exe 文 件 ， 然 后 在 Windows 命 令 行 下 使 用 cmder 命 令 行 工 . 


运行 这 个 工具 。 


运行 


应 该 把 最 小 和 


于 存储 索引 数据 ，logs 文 件 夹 用 于 日 志 记录 。 


默认 情况 下 Elasticsearch 的 RESTful 服 务 只 有 本 机 才能 访问 ， 也 就 是 说 无 法 从 主机 访问 虚拟 机 中 的 服务 。 为 了 方便 调试 ， 可 以 修改 config/elasticsearch.yml 文 件 ， 加 入 以 下 两 行 命令 : 


因为 创建 索引 


， 但 是 也 有 Windows 版 本 的 CURL， 


http.host: 0.0.0.0 

transport.host: 127.0.0.1 

echo >> ./elasticsearch.yml http.host: 0.0.0.0 

echo >> ./elasticsearch.yml transport.host: 127.0.0.1 


但 线 上 环境 切忌 不 要 这 样 配 置 ， 否 则 任何 人 都 可 以 通过 这 个 接口 修改 Elasticsearch 中 的 数据 。 


为 了 能 看 到 索引 内 容 ， 需 要 安装 head 插 件 。Elasticsearch 5.x 安 装 head 插 件 需要 随同 Node.js 一 起 安装 包 管理 工具 npm。 下 面 介绍 在 Linux 下 的 安装 方法 ， 首 先 安装 JDK。 


使 用 默认 环境 启动 Elasticsearch 时 可 能 会 出 现 一 些 错 误 ， 所 以 需要 进行 一 些 设置 。 准 备 好 Elasticsearch 所 需要 的 Linux 操 作 系 统 环 境 ， 根 据 需要 增加 打开 文件 和 进程 的 数量 及 虚拟 内 存 数 量 。 


编辑 limits.conf 文 件 : 


# vi /etc/security/limits.conf 


添加 如 下 内 容 : 


soft nofile 65536 
hard nofile 131072 
soft nproc 2048 
hard nproc 4096 


增 大 进程 数 的 限制 。 然 后 编辑 CentOS 操 作 系 统 中 的 配置 文件 90-nproc.conf: 


# vi /etc/security/limits.d/90-nproc.conf 


将 如 下 内 容 : 


* soft nproc 1024 


修改 为 : 


* soft nproc 2048 


增加 虚拟 内 存 空 间 大 小 。 修 改 配置 文件 sysctl.conf: 


# vi /etc/sysctl.conf 


添加 下 面 配置 : 


wm.max map_count=655360 


然后 执行 命令 : 


sysctl -p 


在 Linux 下 不 能 以 root 用 户 启动 Elasticsearch ， 所 以 需要 先 创建 用 户 ， 这 里 创建 一 个 名 为 ops 的 用 户 。 


# adduser ops 


设置 密码 : 


# passwd ops 


操作 系统 环境 准备 好 之 后 ， 就 可 以 安装 Elasticsearch 了 。 首 先 下 载 并 解压 缩 安装 包 elasticsearch-5.6.2.tar.gz。 


$ wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch- 
S62 ter 
$ tar -xvf elasticsearch-5.6.2.tar.gz 


然后 执行 脚本 启动 服务 进程 : 


# sh elasticsearch 


这 样 会 在 终端 以 交互 方式 执行 Elasticsearch 服 务 进程 。 如 果 想 让 这 个 进程 脱离 终端 运行 ， 加 上 参数 -d 即 可 (./elasticsearch-d) 。 


对 于 旧版 本 的 Linux， 启 动 时 会 提示 警告 : unable to install syscall filter。 因 为 Linux 内 核 不 支持 secomp， 导 致 与 安全 相关 的 过 滤器 安装 失败 。Elasticsearch 默 认 尝 试 使 用 secomp， 因 此 必须 迁移 到 
支持 secomp 的 内 核 ， 或 者 禁用 bootstrap.system_call_filter。 可 以 忽略 这 个 警告 。 


可 以 使 用 Linux 下 的 pgrep 命 令 判 断 程序 是 否 正 在 运行 : 


# pgrep java 


或 者 使 用 Java 提 供 的 JPS 工 具 进 行 察 看 。 


# jps 

24276 Jps 

1113 Bootstrap 
24701 Elasticsearch 


也 可 以 查看 logs 目 录 下 的 启动 日 志 : 


$ cat ./elasticsearch.1og 


客户 端 通过 HTTP 请 求 与 Elasticsearch 打 交道 ，HTTP 请 求 包 括 请 求 的 URL 地 址 和 HTTP 命 令 (GET、POST) 等 。 为 了 简洁 而 一 致 地 描述 HTTP 请 求 ，Elasticsearch 文 档 使 用 CURL 命 令 行 语法 ， 这 也 是 在 


户 社区 中 对 Elasticsearch 请 求 的 标准 做 法 的 描述 。 例 如 ， 通 过 CURL 命 令 给 本 地 节点 发 送 HTTP 请 求 : 


# curl -XGET 'http://localhost:9200/' 


使 用 CURL 命 令 行 的 简单 搜索 请 求 : 


# curl "-XPOST" "http://localhost:9200/_search" -d' 
{ 


lery"; { 
"match all": {} 
} 
}! 


当 上 述 代码 片段 在 控制 台中 执行 时 ， 使 用 3 个 参数 运行 CURL 程 序 。 第 1 个 参数 -XPOST 意 味 着 CURL 所 做 的 请 求 应 该 使 用 HTTP 的 POST 请 求 ; 第 2 个 参数 “http://localhost:9200/_search” 是 请 求 的 


URL; 第 3 个 参数 -d'{http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17738/OEBPS/Text/...} 使 


POST 数 据 。 


可 以 用 网 页 浏览 器 Links 访 问 Elasticsearch: 


-d 标 记 来 指示 CURL 发 送 跟随 这 个 标记 的 HTTP 


# links http://localhost:9200/ 


head 插 件 是 Elasticsearch 集 群 的 Web 前 端 ， 作 为 一 个 单独 的 Web 应 用 而 运行 。 在 Linux 系 统 下 安装 head 插 件 的 过 程 有 如 下 几 步 。 


(1) 安装 npm。npm 是 一 个 Node 包 管理 和 分 发 工具 。 安 装 命令 如 下 : 


# yum install npm 


(2) 下 载 elasticsearch-head。 可 以 用 git 命 令 克隆 出 一 个 小 的 本 地 仓库 。 


# git clone git://github.com/mobz/elasticsearch-head.git 
# cd elasticsearch-head 


(3) 安装 包 。 


# npm install 


(4) 启动 npm。 


# npm run start 


为 了 避免 出 现 跨 域 问题 ， 在 文件 elasticsearch.yml 中 添加 如 下 配置 : 


http.cors.enabled: true 
http.cors.allow-origin: "xm 


可 以 发 送 SIGTERM 信 号 停止 服务 ， 进 程 能 捕捉 到 该 信号 并 “干净 地 ”关闭 程序 。 首 先 找到 进程 的 编号 ， 然 后 使 用 kill 命 令 通过 指定 PID 给 对 应 的 进程 发 送 SIGTERM 信 号 。 可 以 使 用 JPS 命 令 找到 PID， 然 


后 执行 如 下 命令 : 


# ll =15 BED 


1.4.2 ”运行 Elasticsearch 作 为 服务 进程 


启动 Elasticsearch 的 脚本 放 在 /etc/init.d/ 目 录 下 。 启 动 脚本 的 写法 如 下 : 


case "$1" in 
start) 

do start-thing; 
?7 

stop) 
do stop-thing; 


restart) 
do restart-thing; 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/OEBPS/Text/... 


esac 


与 Windows 有 两 种 启动 模式 “安全 模式 ”和 “正常 启动 ”一 样 ，Linux 一 般 有 以 下 7 个 运行 级 别 。 
“ 0: 系统 停机 模式 ， 系 统 默认 运行 级 别 不 能 设置 为 0， 否 则 不 能 正常 启动 ， 机 器 关闭 。 

“1: 单 用 户 模式 ，toot 权 限 ， 用 于 系统 维护 ， 禁 止 远程 登录 ， 类 似 Windows 下 的 安全 模式 登录 。 
“2: 多 用 户 模式 ， 没 有 NFS 网 络 支持 。 

“3: 完整 的 多 用 户 文本 模式 ， 有 NFS， 登 录 后 进入 控制 台 命令 行 模式 。 


“4: 系统 未 使 用 保留， 一 般 不 用 。 


. 5: 图 形 化 模式 ， 登 录 后 进入 图 形 GUI 模式 ，XWindow 系 统 。 


“6: 重启 模式 ， 默 认 运 行 级 别 不 能 设 为 6， 否 则 不 能 正常 启动 。 运 行 init 6 机 器 就 会 重启 。 


查看 运行 级 别 ， 显 示 如 下 : 


# runlevel 
N3 


这 里 用 N 表 示 不 存在 上 一 次 运行 级 别 。 


使 用 chkconfig 命 令 可 以 设置 开机 时 需要 自动 启动 的 服务 程序 。chkconfig 在 没有 参数 运行 时 会 列 出 所 有 的 系统 服务 ， 等 同 于 chkconfig--list。 


# chkconfig 


aegis 0:off 1:off 2:on 3:on 4:on Sp 6:off 
agentwatch Oseff£ loff 2:0n 3:0n 4:o0n 5:on 65GEE 
Jexec 0:off 1:on 2:on 3:on 4:on 5:on 6:off 
netconsole Dyoff lroff soff 3:0ff 45otE 55otE 6:0ff 
network Qoff 二 了 人 3 4:0n 5:on 6:0ff 


Elasticsearch 系 统 服 务 脚本 主要 内 容 如 下 : 


#!/bin/bash 

# chkconfig: 2345 10 90 

# description: Elasticsearch Service http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/OEBPS/Text/..http://www.hzcourse.com/resource/ 
# 定 义 一 些 需要 用 到 的 变量 

ES_HOMP=/opt/modules/elasticsearch-5.0.1 

EXEC_ PATH=$ES HOME 

EXEC=elasticsearch 

DAEMON=$EXEC PATH/bin/$EXEC 

PID FILE=$ES HOME/pid/es.pid 

ServiceName="'Elasticsearch 5.0' 


. /etc/rc.d/init.d/functions # 导 入 /etc/init.d/functions 中 定义 的 方法 
# 检 查 文件 是 否 存在 及 是 否 可 执行 


if [ ! -x $DAEMON ] ; then 
echo "ERROR: $DAEMON not found" 
exit 1 

fi 

# 定 义 停止 服务 的 方法 

stop() 


{ 
echo "Stoping $ServiceName http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/0EBPS/Text/..." 
Ps aux | grep "$DAEMON" | kill -9 ‘awk '{print $2}'. >/dev/null 2>&1 
rm -f $PID FILE 
usleep 100 
echo "Shutting down S$ServiceName: [ successful ]" 


} 
# 定 义 启动 服务 的 方法 

start () 

{ 
echo "Starting $ServiceName http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/O0EBPS/Text/..." 
SDAFMON > /dev/null & 
Pidof $EXEC > $PID FILE 
usleep 100 
echo "Starting $ServiceName: [ successful ]" 


将 Elasticsearch 服 务 开启 并 设置 启动 级 别 : 


# chkconfig --level 3 es on 


用 service (脚本 文件 名 ) start 来 启动 Elasticsearch 服 务 : 


# service es start 


1.5 ”实现 一 个 简单 的 网 站 搜索 


首先 在 命令 行 检查 Elasticsearch 和 群集 ， 然 后 通过 Java 客 户 端 定义 索引 结构 并 导入 数据 ， 最 后 实现 JPS 搜 索 界面 。 这 里 通过 CURL 和 Elasticsearch 打 交道 ,例如 : 


# curl http://localhost:9200/ 


输出 结果 如 下 : 
{ 
"name" : "yqrDfhv", 
"cluster name" : "elasticsearch", 
"cluster uuid" : "EeaB7bHuTpGslvy-CDy_uw", 
"version™ : { 
"number" : "5.6.2", 
"build hash" : "57e20f3", 


"build date" : "2017-09-23T13:16:45.7032", 
"build snapshot" : false, 
"lucene version" : "6.6.1" 

] 

"tagline" : "You Know, for Search" 


可 以 把 返回 结果 重 定向 到 less 命 令 ， 也 就 是 把 CURL 的 输出 作为 less 命 令 的 输入 。 


# curl -s http://localhost:9200/ | less 


也 可 以 重 定向 到 文件 ， 也 就 是 把 CURL 的 输出 存储 为 文本 文件 。 


# curl -s http://localhost:9200/ > es .txt 


但 是 有 些 输 出 格式 不 可 读 。 例 如 : 


# curl http://localhost:9200/_cluster/health 


所 以 采用 HTTPie 工 具 (下 载 网 址 是 https://httpie.org/) 。HTTPie 工 具 可 以 输出 方便 阅读 的 JSON 格 式 并 在 输出 中 加 颜色 。 


pip 是 Python 的 包 管 理工 具 ， 可 以 使 用 pip 安 装 HTTPie 工 具 : 


# pip install --upgrade httpie 


如 果 由 于 某 种 原因 pip 安 装 失 败 ， 可 以 尝试 使 用 命令 easy_install httpie 作 为 安装 HTTPie 的 后 备 方 


在 做 任何 事情 之 前 ， 首 先 需要 了 解 Elasticsearch 群 集 是 否 健康 。 有 几 种 方法 可 以 收集 这 些 信息 ， 但 最 容易 且 最 方便 的 是 使 用 Cluster AP1， 特 别 是 集群 健康 端点 。 运 行 如 下 命令 : 


$ http http://localhost:9200/_cluster/health 


输出 结果 如 下 : 


HTTP/1.1 200 OK 

content-encoding: gzip 

content-type: application/json; charset=UTF-8 
transfer-encoding: chunked 


{ 
"active primary shards": 0, 
"active shards": 0, 
"active shards Percent as number": 100.0, 
"cluster name": "es-catalog", 
"delayed unassigned shards": 0, 
"initializing shards": 0, 
"number of data nodes": 3, 
"number of in filight fetch": 0, 
"number of nodes": 3, 
"number of pending tasks": 0, 
"relocating shards™: 0, 
"status"; "green", 
"task max waiting in queue millis": 0, 
"timed out": false, 
"unassigned shards": 0 


在 这 些 细节 中 ， 寻 找 应 该 设置 为 绿色 的 状态 指示 器 ， 这 意味 着 所 有 分 片 都 被 分 配 ， 并 且 集群 处 于 良好 的 运行 状态 。 


结果 显示 我 们 的 Elasticsearch 集 群 都 是 绿色 的 ， 准 备 好 后 就 可 以 去 干 活 了 。 下 一 个 逻辑 步骤 是 创建 一 个 目录 索引 ， 但 是 在 此 之 前 让 我 们 先 检查 一 下 ,使 用 Indices APl 是 否 已 经 创建 了 任何 索引 。 


$ http http://localhost:9200/_stats 


输出 结果 如 下 : 


HTTP/1.1 200 OK 

content-encoding: gzip 

content-type: application/json; charset=UTF-8 
transfer-encoding: chunked 


{ 


I 
"primaries": {}, 
oki y 下 

Ey 

™ shards"s { 

nfailed"; 0; 
"successful": 0, 
"Eotal™s 0 


}, 


"indices": {} 


正如 预期 的 那样 ， 我 们 的 集群 还 没有 任何 内 容 。 


1.5.1 定义 索引 结构 


首先 在 Eclipse 中 创建 一 个 Maven 项 目 ， 增 加 对 Easticsearch 和 Transport 的 引用 。pom.xml 文 件 部 分 内 容 如 下 : 


<dependencies> 

<dependency> 
<groupId>junit</groupId> 
<artifactId>junit</artifactId> 
<version>3.8.1</version> 
<scope>test</scope> 

</dependency> 

<dependency> 
<groupId>com. fasterxml .jackson.core</groupId> 
<artifactId>jackson-core</artifactId> 
<version>2.8.1</version> 

</dependency> 

<dependency> 
<groupId>com. fasterxml .jackson.core</groupId> 
<artifactId>jackson-databind</artifactId> 
<version>2.8.1</version> 

</dependency> 

<dependency> 
<groupId>com. fasterxml .jackson.core</groupId> 
<artifactId>jackson-annotations</artifactId> 
<version>2.8.1</version> 

</dependency> 


<dependency> 
<groupId>org.elasticsearch.client</groupId> 
<artifactId>transport</artifactId> 
<version>5.6.2</version> 


</dependency> 

<!-- https://mvnrepository.com/artifact/org.elasticsearch/ 
elasticsearch --> 

<dependency> 


<groupId>org.elasticsearch</groupId> 
<artifactId>elasticsearch</artifactId> 
<version>5.6.2</version> 

</dependency> 


</dependencies> 


为 了 发 送 查 询 请 求 ， 首 先 需要 和 Easticsearch 集 群 建立 连接 。 测 试 连接 代码 如 下 : 


public class TestClient { 

static TransportClient client; 

static String clusterName = "elasticsearch"; 

static String serverhost = "localhost"; //IP 地 址 
static int serverPort = 9300; // 端 口号 


public static void main(String[] args) throws UnknownHostException { 
Settings settings = Settings.builder() .put ("cluster.name", 
clusterName) 
‘build(); 
client = new PreBuiltTransportClient (settings) 
.addTransportAddress (new InetSocketTransportAddress 
(InetAddress 
.getByName (serverhost), serverPort)); 


System.out .println ("###### 人 建 了 ElasticCliemnt 提 覃 提亲 提 # 提 林 间 间 提 林 间 # 
拓 # 提 #"") > 

System.out .println ("-------------------- "); 

client .close(); 


在 命令 行 运 行 这 个 测试 类 ， 检 查 能 否 和 Easticsearch 集 群 成 功 建立 连接 : 


# mvn compile exec:java -Dexec.mainClass=demo elastic.demo elastic. 
Testclient 


首先 定义 索引 库 结构 : 


Private static XContentBuilder getMapping (String indexType) 
throws Exception { 
XContentBuilder mapping = XContentFactory.jsonBuilder() .startObject () 
.startObject (indexType) .startObject ("properties") 


// 定 义 标题 列 

.StartObJject ("title") .field ("type", "string") 
.field("store", "yes").field("analyzer", "standard") 
.endOobject () 

// 定 义 内 容 列 

.startObject ("body") .field ("type", "string") 
.field("store", "yes") .field("analyzer", "standard") 
.endOobject () 

.endobject () // 属性 结束 
.endobject () // 索引 类 型 结束 
.endobject () 7 


return mapping; 


然后 调用 IndicesAdminClient.putMapping () 方法 设 定 索 引 库 结构 : 


String indexName = "cms"; 


IndicesAdminClient ac = client.admin() .indices (); 
CreateIndexRequestBuilder builder = ac.prepareCreate (indexName); 


// 设 置 分 片 数量 
Builder setting = Settings.builder() .put ("number of shards", 1); 
builder.setSettings (setting); 


// 首先 创建 索引 库 
CreateIndexResponse indexresponse = client.admin() .indices () 


// 这 个 索引 库 的 名 称 不 能 包含 大 写字 母 


.PrepareCreate (indexName) .setSettings (setting.build()) .execute () 
.actionGet () 7 i 
System.out .println ("CreateIndex "+indexresponse.isAcknowledged()); // 看 是 否 成 功 创建 索引 


// 然 后 设 定 索引 库 结构 
String type = "article"; 
XContentBuilder mapping = getMapping (type); 
PutMappingRequest mappingRequest = Requests 
.PutMappingRequest (indexName) .type (type) .source (mapping); 
PutMappingResponse putMappingResponse = client .admin() .indices () 
.PutMapping (mappingRequest) .actionGet () 7 
// 看 是 否 成 功 设 定 索引 结构 
System.out .Println ("PputMappingResponse " + putMappingResponse. 
isAcknowledged () ) 7 


检查 索引 结构 是 否 已 经 成 功 设 定 : 


# http http://localhost:9200/cms/_settings 


输出 结果 如 下 : 


HTTP/1.1 200 OK 

content-encoding: gzip 

content-length: 176 

content-type: application/json; charset=UTF-8 


{ 
nemsn: { 
"settings": { 


:2 { 
"creation date": "1508639667017", 


"number of replicas": "1", 
"number of shards": "1"， 
"provided name": "cms", 


"uuid": "u7NGm aOQQGp7zSgWERUOA", 
"version": { 

"created": "5060299" 
} 


使 用 IndicesAdminClient.prepareDelete () 方法 删除 索引 。 


IndicesAdminClient admin = client.admin() .indices(); 
admin.prepareDelete (indexName) .execute () .actionGet () .isAcknowledged (); 


1.5.2 导入 数据 


使 用 IndexRequestBuilder 插 入 数据 。 首 先 通过 Client.preparelndex () 方法 指定 索引 名 称 、 类 型 名 称 和 文档 的 唯一 编号 ， 然 后 调用 IndexRequestBuilder.setSource () 方法 设 定 文档 内 容 ， 最 后 调 
IndexRequestBuilder.execute () 方法 并 返回 结果 。 示 例 代码 如 下 : 


String id="20"; ”// 唯 一 列 的 值 

IndexRequestBuilder indexRequestBuilder = client.prepareIndex( 

"cms", "article", id); 

// 准 备 文档 内 容 

Map<String, String> source = new HashMap<>(); 

source.put ("title"，" 标 题 ")， 

source.put ("body"，" 内 容 "); 

indexRequestBuilder.setSource (source); 

IndexResponse response = indexRequestBuilder.execute() .actionGet (); 
System.out .println (response.status () .name ()); // 如 果 成 功 ， 则 返回 CREATED 


命令 行 检查 索引 库 : 


# curl -i http://localhost:9200/cms/article/_search?pretty -d ' 
{ 
"eize"; 10; 
"aueryn: { 
"match all™ : { 
} 
} 
}' 
Client .prepareDelete () 方 法 删除 数据 : 
String id="20"; ”// 唯 一 列 的 值 
DeleteResponse reponse = client .prepareDelete ("cms", "article",id) .get (); 
System.out .println (reponse. status () .name ()); /7 成 功 就 返回 OK 
使 用 UpdateRequest 对 象 更 新 数据 
String id = "20"; // 唯一 列 的 值 


UpdateRequest updateRequest = new UpdateRequest (); 
updateRequest .index ("cms"); // 索引 名 
updateRequest .type ("article"); // 类 型 

updateRequest.id(id); // ID 

UpdateRequest .doc (XContentFactory.jsonBuilder() .startObject () 
.field("body", "content") .endObject ()); 

UpdateResponse resp = client.update (updateRequest) .get (); 
System.out .println (resp.getResult () .name () ) ; // 如 成 功 就 返回 UPDATED 


1.5.3 ”查询 API 


我 们 构造 一 个 QueryBuilder 对 象 来 查询 文档 : 


QueryBuilder qb = QueryBuilders.matchAllQuery (); 
System.out .Println (qb); 


输出 结果 如 下 : 


{ 
"match all™ : { 
"hoost" #1 
上 


完整 的 查询 代码 如 下 : 


MatchAllQueryBuilder qb = QueryBuilders.matchAllQuery(); 
String index = "cms"; 
SearchResponse searchResponse = 
client .prepareSearch (index) .setQuery (qb) .execute () .actionGet (); 


SearchHits hits = searchResponse.getHits (); 

for (SearchHit hit : hits) { 

System.out .printin("id "thit.getId()); // 文档 ID 

Map<String，Object> result = hit.getSource(); // 键 是 列 名 ， 值 是 文档 中 该 列 的 值 


for (final Entry<String, Object> entry : result.entrySet()) { 
System.out .Println (entry.getKey() + " : " + entry.getValue()); // 输 出 文档 内 容 
} 

} 

基本 的 关键 词 查询 : 


String keyWords = "DNA"; // 查 询 词 
QueryStringQueryBuilder qb = new QueryStringQueryBuilder (keyWords); 
String index = "cms";  // 索 引 名 


SearchResponse searchResponse = client .prepareSearch (index) 
.SetQuery (qb) .execute () .actionGet (); 


// 遍 历 查 询 结 果 
SearchHits hits = searchResponse.getHits (); 
for (SearchHit hit : hits) { 


System.out .Println("id " + hit.getId()); // 文档 ID 

Map<String，Object> result = hit.getSource(); // 键 是 列 名 ， 值 是 文档 中 该 列 的 值 
for (final Entry<String, Object> entry : result.entrySet()) { 
System.out .Println (entry.getKey() + " : " + entry.getValue()); 


} 
} 


SearchRequestBuilder.setFetchSource () 方法 限定 返 过 多 的 数据 : 


回 


的 列 数据 ， 以 避免 返 


回 


SearchRequestBuilder restBuilder = client.prepareSearch (index) . 

setQuery (qb); 

// 限 定员 返 四 title 列 的 数据 

SearchResponse searchResponse =restBuilder.setFetchSource ("title", null) 
.execute () .actionGet (); 


也 可 以 调用 Client.prepareGet () 方法 只 返回 指定 文档 ， 代 码 如 下 : 


GetResponse response = client.prepareGet ("cms", "artile", "20") 
.SetFetchSource ("title",null) 

.execute () .actionGet (); 

Map<String, Object> result = response.getSourceAsMap();  ”// 结 果 封 装 成 Map 
for (final Entry<String, Object> entry : result.entrySet()) { 


System.out .Println (entry.getKey() + " : " + entry.getValue ()) 7 
} 


为 了 实现 分 页 显示 ， 需 要 设置 两 个 参数 : 从 第 几 个 结果 开始 返回 文档 ， 以 及 最 多 返回 多 少 个 文档 。 通 过 SearchRequestBuilder 的 setFrom () 和 setSize () 方法 来 设置 这 两 个 参数 。 参 考 代 码 如 下 : 


int rows=10; // 一 页 显示 多 少 条 搜索 结果 
int offset=0; ”// 开 始 行 


SearchRequestBuilder searchRequestBuilder = client .prepareSearch (index); 


// 分 页 应 用 


searchRequestBuilder.setFrom (offset) .setSize (rows); 


另外 ， 记 录 结果 总 数 ， 用 于 计算 总 的 页 码 数量 。 


SearchHits searchHits = response.getHits(); 
long totalHits = searchHits.getTotalHits (); 


// 得 到 结果 总 数 


为 了 实现 查询 结果 高 亮 显示 ， 首 先 指定 高 亮 标签 及 哪些 列 需要 高 亮 ， 然 后 在 符合 条 件 的 结果 中 得 到 高 亮 段 。 通 过 HighlightBuilder 指 定 高 亮相 关 的 信息 。 


EBD searchRequestBuilder = client.PrepareSearch (index); 


// 高 亮 标 


HighlightBuilder hiBuilder = new HighlightBuilder ()7 
hiBuilder.preTags ("<span style=\"color:red\">"); 


hiBuilder.postTags ("</span>"); 
// 指定 高 亮 字段 
hiBuilder.field ("title"); 


searchRequestBuilder.highlighter (hiBuilder); 


1.5.4 ”实现 搜索 界面 


本 节 将 使 用 成 熟 的 JSP 技 术 实现 搜索 页 面 。 首 先 介 绍 Web 服 务 器 Tomcat 的 下 载 、 安 装 和 使 用 过 程 ， 然 后 介绍 使 用 Taglib 开 发 搜索 界 | 


在 PC 端 或 者 手机 端 可 以 使 用 的 搜索 界面 由 Web 服 务 器 提供 ，Web 服 务 器 提供 了 servlet 开发 接口 让 应 用 程序 生成 返回 给 浏览 器 的 数 


回 


的 Servlet 容 器 ， 可 以 从 http://tomcat.apache.org/ 网 站 上 找到 Tomcat 的 具体 下 载 地 址 。 


通过 SSH 客 户 端 登 录 Linux 服 务 器 ， 然 后 用 wget 命 令 下 载 Tomcat 压 缩 包 。 


居 。 Servlet 类 运行 在 Servlet 容 器 中 ，Catalina 是 Web 服 务 器 Tomcat 


wget 


http://mirrors.hust.edu.cn/apache/tomcat/tomcat-8/v8.5.23/bin/apache— 


tomcat-8.5.23.tar.gz 


下 载 之 后 解压 缩 : 


tar -xvf apache-tomcat-8.5.23.tar.gz 


为 了 简单 测试 Servlet 类 ， 可 以 直接 重 写 Tomcat 自 带 的 Servlet 类 似 例子 ， 如 HelloWorld Example， 然 后 增加 Tomcat 所 使 用 的 内 存 。 修 改 配 置 文 件 catalina.sh 如 下 : 


Vi /usr/local/apache-tomcat-8.5.23/bin/catalina.sh 


在 文件 catalina.sh 的 开始 位 置 增加 如 下 行 : 


JAVA_OPTS=-Xmx1024m 


修改 Tomcat 配 置 文 件 server.xml， 把 监听 端口 号 从 8080 改 到 80， 并 且 支 持 UTF-8 编 码 : 


Vi /usr/local/ apache-tomcat-8.5.23/conf/server.xml 


在 server.xm| 配 置 文件 中 增加 如 下 配置 : 


useBodyEncodingForURI="true" URIENcoding="UTF-8" 


可 以 把 Web 应 用 打 一 个 war 包 ， 然 后 传 到 服务 器 上 的 webapps/ 子 路 径 下 ， 这 样 会 自动 解压 缩 WAR 包 中 的 Web 应 用 。 


浏览 器 用 户 在 输入 框 中 输入 查询 词 ， 查 询 词 一 般 会 作为 GET 请 求 中 的 参数 提供 给 Web 服 务 器 。 然 后 通过 GET 请 求 将 查询 词 提交 到 Searchjsp 的 HTML 网 页 ， 代 码 如 下 : 


<form method="get" action="./Search.jsp"> 
<input type="text"/> 

<input type=submit value= 搜 索 > 

</form> 


在 HTML 5 中 引入 搜索 输入 框 代替 文本 输入 框 : 


<input type=search> 


为 了 实现 代码 复 用 ， 再 定义 一 个 专用 于 根据 关键 词 查询 返回 结果 的 Taglib。 搜 索 结果 页 是 一 个 表格 型 的 数据 。Listlib 实 现 了 对 数据 的 封装 和 抽象 ， 可 以 通过 它 来 控制 显示 的 结果 数量 ， 如 可 以 指定 每 页 显 


示 20 条 或 10 条 记录 。 执 行 Lucene 搜 索 的 类 继承 List Creator 接 


1. init 标 签 


， 并 把 搜索 结果 通过 ListContainer 类 的 实例 返回 即 可 。Listlib 中 定义 的 标签 有 以 下 几 类 : 


init 是 Listlib 中 的 起 始 标签 。 其 创建 一 个 ListCreator 对 象 ， 并 且 运 行 该 对 象 的 execute () 方法 ， 同 时 把 它 存 储 在 HttpServletRequest 属 性 中 。 这 是 一 个 容器 标签 ， 所 以 在 JSP 页 面 使 


都 必须 谋 套 在 这 个 TAG 中 间 。 


init 标 签 的 主要 属性 有 : 通过 name 指 定 一 个 名 字 ， 


因 


为 需要 通过 该 名 字 把 ListCreator 对 象 存储 在 HttpServletRequest 


时 ， 其 他 的 TAG 


属性 中 ;通过 listCreator 来 指定 创建 ListCreator 的 对 象 ;通过 max 声 明 每 页 必须 显 


示 的 记录 条 数 。 


2. hasResults 标 签 


如 果 用 户 查询 词 有 匹配 的 文档 ， 则 会 执行 hasResults 标 签 ， 否 则 会 跳 过 。 


3. hasNoResults 标 签 


如 果 用 户 查询 词 没有 匹配 的 文档 则 会 执行 hasNoResults 标 签 ， 否 则 会 跳 过 。 


4. prop 标 签 


返回 list 中 的 属性 值 。 和 搜索 结果 总 体 相关 的 信息 可 以 通过 prop 标 签 来 显示 ， 如 搜索 提示 词 、 搜 索 结果 分 类 统计 等 。 


5. hasPrev 标 签 


如 果 还 可 以 继续 往 回 遍历 ， 则 会 显示 hasPrev 标 签 中 的 内 容 ， 否 则 就 跳 过 。 


6. hasNext 标 签 


如 果 还 可 以 继续 向 下 遍历 ， 则 会 显示 hasNext 标 签 中 的 内 容 ， 否 则 就 跳 过 。 
7 iterate 标 签 
遍历 ListContainer 中 的 元 素 。 


8. iterateProp 标 签 


从 返 代 器 的 当前 对 象 返回 其 中 的 属性 值 ， 如 返回 标题 ， 通 过 命令 <list: iterateProp property= "title"/> ， 可 以 在 listlib.tld 文 件 中 定义 Taglib。 


以 中 文字 符 作为 参数 时 ， 需 要 用 对 应 字符 集 编码 这 个 字符 串 。 这 里 为 URL 编 码 专门 写 了 一 个 自 定 义 标 签 iteratePropURLEncodeTag。 


使 用 iterateURLEncodeProp 的 例子 : 


<a href= 

"folder.jsp?folder=<list:iterateURLENcodeProp property="folder"/>&docType=<list:iterateProp property="docType"/>" 
执行 搜索 的 Java Bean: 

public class SearchWeb implements ListCreator { 

private String query; 


private Client server; // 在 Web 容 器 内 全 局 唯一 
private static Logger logger = Logger.getLogger (SearchWeb.class. 
getName () ) 7 


// 只 调用 一 次 
Public void init (String host) throws Exception { 
server = new PreBuiltTransportClient (Settings .EMPTY) 
.addTransportAddress (new InetSocketTransportAddress (InetAddress 
.getByName (host), 9300)); 


在 开发 搜索 Web 界 面 之 前 ,我 们 先 写 一 个 控制 台 方式 运行 的 搜索 程序 测试 一 下 索引 库 。 使 用 存根 类 专门 测试 ListCreator 的 实现 类 SearchWeb: 
String host = "localhost"; //Elasticsearch 服 务 地址 
String query = "DNA"; // 查 询 词 


SearchWeb search = new SearchWeb(); 

search.init (host); 

search. setQuery (query); 

// 翻 页 参数 

int offset = 0; 

int max = 10; 

PageContextImpl context = new PageContextImpl () 7 //PageContext 存 根 类 
context.request = new ServletRequestImpl (); //ServletRequest 存 根 类 
ListContainer lc = search.execute (context, offset, max); 

lc.setUrl ("Search.jsp"); 

System.out .Println("result size:" + lc.getSize()); // 输 出 结果 总 数 
Iterator it = lc.getIterator(); 

while (it.hasNext()) { 

HashMap<String, String> row = (HashMap<String, String>) it.next (); 


System.out.println("url:" + row.get ("url")); // 输 出 网 址 列 
System.out .println ("title:" + row.get ("title"));  // 输 出 标题 列 
System.out .printin ("body:" + row.get ("body")); // 输 出 内 容 列 


} 


在 JSP 调 用 实现 类 之 前 ,需要 区 分 哪些 类 是 静态 的 、 全 局 唯一 的 ， 哪 些 对 象 需要 在 页 面 内 即时 创建 和 使 用 ， 哪 些 对 象 在 整个 用 户 会 话 期 间 内 有 效 。 


使 用 sp: useBean 标 签 创建 一 个 Bean 实 例 并 指定 它 的 名 字 和 作用 范围 。 


<!-- 定 义 全 局 唯一 的 搜索 Bean - 它 实现 了 ListCreator 的 execute 方 法 --> 
<jsp:useBean id="searchInf" class="com.lietu.search.SearchWeb" scope=" 
application"> 

<!-- 指 定 Elasticsearch 服 务 器 的 ITP 地 址 --> 

<% searchInf.init ("localhost"); $%> 

</jsp:useBean> 

<!- 用 从 HTTP 的 get 参 数 得 到 的 查询 中 设置 搜索 对 象 的 属性 --> 

<jsp:setProperty name="searchInf" property="query" value="<%=query%>"/> 
<!-- 执 行 搜索 并 把 返回 结果 封装 到 ListContainer --> 


<list:init name="information" 1istCreator="searchInf" max="20"> 


搜索 结果 翻 页 使 用 JSP 标 签 库 Pager-taglib。 使 用 Pager-taglib 的 流程 如 下 : 


(1) 复制 pager-taglib.jar 包 到 lib 目 录 下 ， 不 需要 改 web.xml。 


(2) 在 JSP 页 面 中 使 用 taglib 指 令 引 入 pager-taglib 标 签 库 。 


(3) 使 用 pager-taglib 标 签 库 进行 分 页 处 理 。 


通过 maxPageltems 参 数 设 定 每 页 最 多 显示 的 结果 数 。 在 JSP 页 面 中 使 用 翻 页 标签 库 的 例子 如 下 : 


<pg:pager url="Search.jsp" 
items="<%=Integer.parseInt (listSize)%>" 


maxPageItems="20" 
maxIndexPages="10" 
export="currentPageNumber=pageNumber™ 
scope="request"> 

<pg:param name="query" value="<%=query%>"/> 


</ pg:pager> 


其 中 ， 在 pg: pager 标 签 中 定义 了 action 的 URL 地 址 ， 在 pg: param 标 签 中 定义 了 查询 参数 query。 


pager-taglib 在 输出 的 页 面 中 生成 链接 search.jsp? query=%E7%9A%84&pager.offset=10， 其 中 包含 了 开始 位 置 的 参数 。 在 InitTag 类 中 得 到 


始 返 


回 结果 的 偏 移 量 。 


public static final String OFFSET KEY = "pager.offset"; 


public int dostartTag() throws JspException { 

// 得 到 字符 串 形 式 的 参数 

String offsetStr = pageContext .getRequest () .getParameter (OFFSET KEY); 
// 转 换 成 整数 


int offset = Integer.ParseInt (offsetStr); 
} 


头 部 代码 如 下 : 

1 <%@ page contentType="text/html; charset=UTF-8"%> 

2 <%@ page session="false" %> 

3 <%Q@ page import="java.net.URLENcoder"®> 

4 <%@ taglib uri="http://jsptags.com/tags/navigation/pager" prefix="pg" %> 
5 <%@ taglib uri="http://com.bitmechanic/listlib" prefix="list" 和 > 
G6- “< 

7 String query = request.getParameter ("query"); 

8 if (query = null) query = ""; 

9 -> 

10 <html> 

11 <head> 

12 <title> 全 文 检索 </title> 

13 </head> 

14 

15 </html> 


其 中 ， 第 1 ~ 5 行 是 一 些 JSP 指 令 ， 第 2 行 表示 不 使 用 session 来 保存 信息 ， 第 3 行 用 于 引入 包 ， 第 6 ~ 9 行 是 JSP 中 的 Java 代 码 。 


内 容 部 分 的 代码 如 下 : 

1 <body> 

2 <table width="998" border="0" align="center" cellpadding="0" cellspacing= 
"On> 

入 <tr> 

4 <td colspan="4"><% if (!query.equals("")) { $%> 

5 <jsp:useBean id="searchInf" class="com.lietu.search.SearchWeb" 


scope="application"> 
<% searchInf.init ("localhost"); %> 


7 </jsp:useBean> 

8 

9 <jsp:setProperty name="searchInf" property="query" Value=" 
<%=query%>"/> 

10 </td> 

11 A 

12 <tr> 

13 <td valign="top" width="80%"> 


14 <%long start System.currentTimeMillis(); 
15 <list:init name="information" listCreator: 
16 <% long end = System.currentTimeMillis();%> 
17 <list:hasResults> 


searchInf" max="20"> 


18 <pg:pager url="./Search.jsp" 

19 items="<%=Integer.parseInt (listSize)®%>" 

20 maxPageItems="20" 

21 maxIndexPages="10" 

22 export="currentPageNumber=pageNumber™ 

区 汪 scope="request"> <pg:param name="query" value="<%=query%>"/> 


24 <pg:page export="firstItem, lastItem"> 


le] <div clas, resultInfo"> 

26 <TABLE cellSpacing=0 cellPadding=0 width="98%" border=0> 

全 <TBODY> 

28 <TR> 

29 <TD bgColor=#ffffcc height=30>&nbsp; gnbsp; gnbsp; gnbsp; 


有 <strong><$=]istSize%></strong> 项 符合 <strong><%=querys 
</strong> 的 查询 结果 ， 以 下 是 第 <strong><%= firstItem %>-<%= 
lastItem %></strong> 项 。( 搜 索 用 时 <%=( (double) end- (double) 
start) /1000%> 秒 ) </TD> 


30 </TR></TBODY></TABLE> 
3 </div> 
32 </pg:page> 


33 <TABLE width="95%" border="0" align="center" cellpadding="2" 
cellspacing="0"> 

34 <list:iterate> 

35. <TR> 

36 <td width=66%><a href="<list:iterateProp property="ur1l"/>" 
target=" blank" ><B><FONT style="FONT-SIZE: 14px"><list: 
iterateProp property="title"/></FONT></B>&nbsp; gnbsp; <FONT 
Size=-1 color=#6f6f6f></FONT></td> 


37 <td width=18%></td> 

38 <td width=16%></td> 

39 </TR> 

40 <TR vAlign=top > 

41 <td colspan=3> <FONT size=-1><1ist:iterateProp property=" 
body"/></FONT> 

42 </td> 

43 </TR> 

44 <TR vAlign=top > 

45 <td colspan=3> <span class=tailurl><a class=tail href="<list: 


iterateProp property="url"/>" target=" blank" ><list: 
iterateProp property="url"/></a></span> 


46 </td> 

47 </TR> 

48 </list:iterate> 

49 </TABLE> 

50 <pg:index export="totalItems=itemCount"> 

51 <div class="rnav"> <span class="rnavLabel">&nbsp; énbsp; énbsp; 


&nbsp; &nbsp; &nbsp; &nbsp; snbsp; 结 果 : </span>&nbsp; <pg:prev 
export="pageUrl"> 


52 <a href="<%= pageUr]l %>"class="rnavLink">g&#171; gnbsp; 
上 一 页 </a>&nbsp; 

ex} </pg:prev> <pg:pages> 

54 <% 

35 if (pageNumber.intValue() < 10) { 

56 多 > 

57 &nbsp; 

58 <% 

59 } 

60 if (pageNumber == currentPageNumber) { 

61 名 > 

62 <b><%= pageNumber %></b> 

63 <% 

64 } else { 

65 多 > 


66 <a href="<%= PageUTr1 %>"><%= PageNumber %></a> 


页 相关 信息 ， 第 72 行 和 第 73 行 处 理 无 返 区 


1.6 


本 章 从 搜索 引 警 的 需求 出 发 ， 使 
.NET、Python 和 PHP 开 发 Elasticsearch 搜 索 客户 端 。 


其 中 ， 第 5 ~ 7 行 中 定义 了 搜索 


< 区 
} 


多 > 


</pg:pages> <pg:next export="pageUrl"> gnbsp; gnbsp;<a href="<%= 


PageUTr1 %>" class="rnavLink"> 下 一 页 &nbsp; &#187;</a> 
</pg:next> </div> 


</pg:index> </pg:pager> </list:hasResults> <list:hasNoResults> 


&nbsp; Enbsp; gnbsp; snbsp; 对不起， 没有 结果 返回 。 
<p>gnbsp; gnbsp; gnbsp; gnbsp; </list:hasNoResults> 
</list:init> 
<br> 
<%$ } else{ 和 > 
<br> 
<% }%$><br> 
</td> 
/tr 
< 
<td align="center" bgcolor="#EEEEEE"></td> 
/tr> 
</table> 
</body> 


翻 页 标签 库 ， 第 29 行 显示 搜索 结果 


的 


结果 的 情况 。 


本 章 小 结 


avaBean， 第 9 行 设置 查询 词 ， 第 14 ~ 16 行 记录 搜索 用 时 ， 第 18 ~ 24 行 使 


Elasticsearch 的 Java API 实 现 了 一 个 简单 的 搜索 界面 


， 可 以 通过 Mapping 定 义 索引 结构 ， 然 后 填充 数据 到 索引 ， 最 后 再 做 搜索 部 分 。 除 了 使 


Elasticsearch 对 外 使 用 JSON 和 客户 端 实现 数据 交换 。JSON 是 一 种 与 语言 无 关 的 数据 格式 。 

CURL 是 Linux 下 的 一 个 HTTP 命 令 行 工具 ， 通 过 CURL 发 送 命令 和 Elasticsearch 节 点 交互 。 

除了 自己 写 Shell 脚 本 外 ， 还 可 以 使 用 Java Service Wrapper 将 Elasticsearch 部 署 成 服务 。 

Elasticsearch 的 引擎 是 一 个 运行 时 环境 ， 使 人 们 能 够 实时 地 分 析 和 处 理 大 量 数据 ， 它 “不 要 求 你 必须 是 一 位 数据 科学 家 才能 把 它 用 好 ” ， 这 也 是 该 产品 的 一 个 
大 数据 的 复杂 性 简单 化 。 

从 Elasticsearch5.x 版 开始 ， 它 的 服务 器 端 代码 开始 成 熟 ， 但 客户 端 代码 仍然 在 发 展 和 调整 之 中 。Java AP 与 Elasticsearch 服 务 器 在 端 
Jest 提 供 自 己 的 Java AP1， 还 可 以 使 用 Elasticsearch Java APl 来 构建 查询 ， 然 后 提交 给 RESTfu| 端 点 。 从 5.0 版 开始 ，Elasticsearch 推 出 了 自己 的 Rest Client。 

除了 Elasticsearch， 还 可 以 使 用 Solr 实 现 网 站 搜索 。 


Elasticsearch 中 的 全 文 索引 


是 按 词组 织 的 。 


第 2 章 ”开发 中 文 搜索 引擎 


时 ， 第 34 ~ 48 行 显示 搜索 结果 ， 第 50 ~ 72 行 显示 翻 


Java AP1， 还 可 以 使 


Elasticsearch 存 在 的 理由 是 把 


9300 上 打交道 ， 而 RESTful 的 HTTP 客 户 端 Jest 使 用 端口 9200。 


词 是 怎么 来 的 呢 ? 对 于 中 文 文档 来 说， 是 中 文 分 词 分 出 来 的 。 例 如 ， 如 果 没 有 中 文 分 词 ， 搜 索 “ 印 度 ”， 则 会 出 现 “ 印 度 尼 西亚 ”相关 信息 。 


本 章 首先 介绍 中 文 分 词 的 基本 原理 ， 然 后 介绍 开发 支持 Lucene 的 中 文 分 词 ， 以 及 开发 Elasticsearch 所 需要 的 AnalyzerProvider， 最 后 介绍 通过 增加 n 元 连接 来 提高 分 词 准确 度 的 方法 。 


2.1 中 文 分 词 原 理 
中 文 分 词 目前 常用 的 方法 有 固定 规则 的 最 长 匹配 方法 和 基于 机 器 学 习 的 概率 语言 模型 方法 ， 下 面具 体 介 绍 。 
2.1.1 最 长 匹配 方法 


假如 要 切 分 “印度 
的 词 ， 除 非 有 必要 才 


最 大 长 度 匹 配 的 分 词 方法 实现 起 来 很 简单 。 
。 例 如 ，Trie 树 结构 


印 印度 印度尼西亚 潜水 


输入 “印度 尼 西 亚 潜水 ”， 首 先 匹配 出 开头 的 最 长 词 “ 印 度 尼 西 亚 ”， 然 后 匹配 出 “潜水 ”。 切 分 过 程 如 


长 词 表述 。 


已 西亚 潜水 ”这 名 话 ， 希 望 切 分 出 “印度 尼 西 亚 ” ， 而 不 希望 切 分 出 “印度 ”这 个 词 ， 找 最 长 词 是 最 大 长 度 


每 次 从 词典 中 寻找 和 待 匹配 


的 词典 中 包括 如 下 5 个 词语 : 


水 


最 后 分 词 结果 为 “印度 


在 分 词类 Segmenter 的 构造 方法 中 输入 要 处 理 的 文本 ， 然 后 通过 nextWord () 方法 遍历 单词 ，text 变 量 记录 切 分 文本 ，offset 变 量 记录 已 经 切 分 到 哪 


已 西亚 /潜水 ”。 


public class Segmenter { 


// 切 分 文本 


String text = null; 
// 已 经 处 理 到 的 位 置 


int offset; 


public Segmenter (String text) { 
this.text = text; /更 新 待 切 分 的 文本 
offset = 0; // 重 置 已 经 处 理 到 的 位 置 


} 


2-1 所 示 。 


[ 


匹配 的 思想 。 写 作者 ( 即 被 分 词 代码 分 析 文本 的 写作 者 ) 倾向 于 使 


EB。 分 词类 


更 短 


前 缀 最 长 匹配 的 词 ， 如 果 找到 匹配 词 ， 则 把 这 个 词 作为 切 分 词 ， 待 匹配 串 减 去 该 词 ， 如 果 词 典 中 没有 词 能 匹配 ， 则 按 单字 切 


本 实现 如 下 : 


public String nextWord() { _V/ 得 到 下 一 个 词 ， 如 果 没有 则 返回 nul1 
// 返回 最 长 匹配 词 ， 如 果 没 有 匹配 上 ， 则 按 单字 切 分 


} 


已 切 分 出 的 结果 待 切 分 位 置 


| 
| 
待 切 分 位 置 


图 2-1 最 大 长 度 匹 配 切 分 过 程 


待 切 分 位 置 


为 了 避免 重复 加 载 词典 ， 在 Segmenter 类 的 静态 方法 中 加 载 词典 。 代 码 如 下 : 


private static TSTNode root; // 根 节点 是 静态 的 

static { // 加 载 词典 
String fileName = "WordList.txt"; // 词 典 文件 名 
ry 


new FileReader (fileName); 


FileReader fileRead 
new BufferedReader (fileRead); 


BufferedReader read 


String line; // 读 入 的 一 行 
try { 
while ((line = read.reagdLine()) != null) { // 按 行 读 
StringTokenizer st = new StringTokenizer (line, "“\t"); 
String key = st.nextToken (); // 得 到 词 
// 创 建 词 对 应 的 结束 节点 并 返回 


TSTNode endNode = createNode (key); 
// 设 置 这 个 节点 对 应 的 值 ， 也 就 是 把 它 标记 成 可 以 结束 的 节点 
endNode.nodeValue = key; 
} 
} catch (IOException e) { 
e.printstackTrace (); 
}finally { 
read.close(); // 关 闭 读 入 流 


} 

} catch (FileNotFoundException e) { 
e.printSstackTrace (); 

} catch (IOException e) { 
e.printstackTrace (); 

} 


为 了 形成 平衡 的 Trie 树 ， 把 词典 中 的 词 先 排序 ， 排 序 后 为 : 


印度 尼 西 亚 印度 印 潜水 水 


[ 


2-2 所 示 ， 其 中 双 圈 表示 的 节点 可 以 作为 匹配 终止 节点 。 


按 平 衡 方式 生成 的 词典 Trie 树 如 


图 2-2 三 又 树 


在 最 大 长 度 匹 配 的 分 词 方法 中 ， 需 要 用 到 从 待 切 分 字符 串 返 回 从 指定 位 置 (offset) 开始 的 最 长 匹配 词 的 方法 。 例 如 ， 当 输入 串 是 “印度 尼 西 亚 潜水 ”， 则 返回 “印度 尼 西 亚 ” 这 个 词 ， 而 不 是 返 
回 “ 印 ” 或者“ 印度，， 匹 配 的 过 程 就 像 一 条 蛇 有 但 上 一 棵 树 一 样 。 例 如 ， 当 offset=0 时 ， 找 最 长 匹配 词 的 过 程 如 图 2-3 所 示 。 树 上 有 一 个 当前 节点 ， 输 入 字符 串 中 有 一 个 当前 位 置 。 图 中 用 数字 标 出 了 匹配 过 
程 中 第 一 步 、 第 二 步 和 第 三 步 中 当前 节点 和 当前 位 置 分 别 位 于 什么 位 置 。 


3 


印 度 尼 西 亚 潜 水 


图 2-3 找 最 长 匹配 词 


从 Trie 树 搜索 最 长 匹配 单词 的 方法 如 下 : 


public String nextWord() { // 得 到 下 一 个 词 
String word = null; // 候 选 最 长 词 
if (text == null || root == null) { 
return word; 
} 
if (offset >= text.length()) // 已 经 处 理 完毕 
return word; 
TSTNode currentNode = root; // 从 根 节点 开始 Ce 
int charIndex = offset; // 待 切 分 字符 串 的 处 理 开始 位 置 
while (true) { > 
if (currentNode == null) { // 已 经 匹配 完毕 
if (word==nu11) { // 没 有 匹配 上 ， 则 按 单字 切 分 
word = text.substring (offset,offset+1); 
offset+tt+; 
} 
return word; // 返 回 找到 的 词 
int charComp = text.charAt (charIndex) - currentNode.splitChar; // 比 较 两 个 字符 
if (charComp == 0) { 
charIndext+; // 找 字符 串 中 的 下 一 个 字符 
if (currentNode.nodeValue != null) { 
word = currentNode.nodeValue; // 候选 最 长 匹配 词 
offset = charIndex; // 设 置 偏 移 量 
if (charIndex == text.length()) { 
return word; // 已 经 匹配 完 
} 
currentNode = currentNode.mid; 
} else if (charComp < 0) { 
CurrentNode = currentNode.1left; 
} else { 
currentNode = currentNode.right; 
} 
} 
测试 分 词 : 
Segmenter seg = new Segmenter (" 印 度 尼 西亚 潜水 ") ; // 切 分 文本 
String word; // 保 存 词 
do { 
word = seg.nextWord(); 
System.out .println (word); 单 
} while (word != null); // 直 到 没有 词 
返回 结果 如 下 : 
印度 尼 西 亚 
潜水 
null 
可 以 给 定 一 个 字符 串 ， 然 后 枚 举 出 所 有 的 匹配 点 。 以 “大 学 生活 动 中 心 ”为 例 ， 第 一 次 调用 时 ，offset 是 0， 第 二 次 调用 时 ，offset 是 3。 因 为 采用 了 Trie 树 结构 查找 单词 ， 所 以 和 用 HashMap 查 找 单词 


的 方式 比较 起 来 这 种 实现 方法 的 代码 更 简单 ， 而 且 切 分 速度 更 快 。 


词典 工厂 类 代码 如 下 : 


public interface DicFactory { 
TernarySearchTrie create(); 
} 


实现 从 数据 库 表 生 成 词典 的 类 : 


public class DicDBFactory implements DicFactory { 


public static Connection getConnect () { 


try { 
Class.forName ("org.sqlite.JDBC"); // 加 载 驱动 程序 
String absolute path to sqlite db = "./dic/words.sqlite"; 
//SQLIte 数 据 库 文件 
// 建 立 连 接 


return DriverManager.getConnection("jdbc:sqlite:"+absolute 
path to sqlite db); 
} catch (Exception e) { 
e.printSstackTrace (); 
return null; 


} 


QOverride 
public TernarySearchTrie create() { 
TernarySearchTrie dic = new TernarySearchTrie(); 


Connection conn = getConnect (); // 得 到 数据 库 连 接 
String sql = "SELECT WORD,FRQ from WORDS"; // 查 询 词典 表 
Ek 和 
Statement stmt = conn.createStatement () 7 
ResultSet rs = stmt.executeQuery (sql); // 执 行 SQL 语 句 
while (rs.next()) { 
String word = rs.getString(1); // 得 到 词 加 
dic.addWord (word); // 向 词典 中 增加 词 


} catch (Exception e) { 
e.printStackTrace () 7 
} 
try { 
conn.close(); // 关 闭 数据 库 连接 
} catch (SQLException e) { 
e.printStackTrace () 7 
} 


return dic; 


实现 从 文件 中 生成 词典 的 类 : 

public class DicFileFactory implements DicFactory { 
public static final String binDic = "Words.bin"; // 词 典 文件 
QOverride 


public TernarySearchTrie create() { 
TernarySearchTrie dic = new TernarySearchTrie(); 
File binFile = new File (binDic); 


if (!binFile.exists()) { // 词 典 文件 还 不 存在 
dic = (new DicDBFactory()).create(); 
// 生 成 二 进 制 格 式 的 词典 文件 
dic.compileDic (binFile); 
} else {// 从 生成 的 数组 树 中 进行 加 载 
// 加 载 二 进 制 格式 的 词典 文件 
dic.loadBinaryDataFile (binFile); 
} 


return dic; 


2.1.2 ”自己 写 分 析 器 


开发 分 词 ， 除 了 要 在 分 词 项 目 中 导入 核心 包 |ucene-core-6.3.0.jar 之 外 ， 还 要 导入 lucene-analyzers-common-6.3.0.jar 包 。 


分 词 做 好 以 后 ， 要 套 上 Tokenizer 接 口才 能 在 Lucene 中 使 用 ， 最 后 用 自 定义 的 Analyzer (分 析 器 ) 调用 支持 中 文 的 Tokenizer 接 口 


首先 初始 化 CharTermAttribute 和 OffsetAttribute 这 样 的 属性 : 


public final class CnTokenizer extends Tokenizer { 
private final CharTermAttribute termAtt = addAttribute 


(CharTermAttribute.class); // 词 
private final OffsetAttribute offsetAtt = addAttribute 
(OffsetAttribute.class); // 位 置 


CnTokenizer () 构造 方法 如 下 : 


CnTokenizer (factory, input, dict); 


下 面 是 采用 最 大 长 度 匹 配 实 现 的 一 个 简单 的 Tokenizer 接 口 。 


public class CnTokenizer extends Tokenizer { 
private static TernarySearchTrie dic = new TernarySearchTrie 
("SDIC. txt"); // 词 典 
Private CharTermAttribute termAtt; // 词 属性 
private static final int IO BUFFER SIZE = 4096; 
Private char[] ioBuffer = new char[IO BUFFER SIZE]; 


private boolean done; 
private int i = 0; // i 是 用 来 控制 匹配 的 起 始 位 置 的 变量 


Private int upto = 0; 


public CnTokenizer (Reader reader) { 
super (reader); 


this.termAtt = addAttribute (CharTermAttribute.class); 
this.done = false; 
} 


public void resizeIOBuffer (int newSize) { 
if (ioBuffer.length < newSize) { 
// 不 够 大 。 创 建 一 个 新 的 数组 ， 轻 微 地 多 分 配 并 保留 内 容 
final char[] newCharBuffer = new char [newSize]7 
System.arraycopy (ioBuffer, 0, newCharBuffer, 0, ioBuffer. 
length); 
ioBuffer = newCharBuffer; 


} 


QOverride 
public boolean incrementToken () throws IOException { 
if (!done) { 

clearAttributes () 7 

done = true; 

upto = 0; 

i=0; 

while (true) { 

final int length = input.read (ioBuffer, upto, ioBuffer. 


length 
- ptG 7 
if (length 一 -1) 
break; 


upto += length; 
if (upto == ioBuffer.length) 
resizeIOBuffer (upto * 2); 


bl: 


if (i < upto) { 
char[] word = dic.matchLong (ioBuffer, i, upto); // 最 大 长 度 匹 配 
if (word != null) { // 已 经 匹配 上 
termAtt .setTermBuffer (word, 0, word.length); 
i += word.length; 


} else { 
termAtt.setTermBuffer (ioBuffer, i, 1); , 、 
++i7 // 下 次 匹配 点 在 这 个 字符 之 后 


return true; 


} 


return false; 


为 了 能 在 Lucene 中 连续 执行 ，CnTokenizer () 构造 方法 中 需要 重 写 reset () 方法 。 


QOverride 

public void reset () throws IOException { 
super .reset () 7 
this.i=0; 
this.done 
this.upto 

} 


false; 
0 


QOverride 

public void reset (Reader input) throws IOException { 
super .reset (input); 
reset (); 


} 


QOverride 
public void end() throws IOException { 
// 设置 最 后 的 偏 移 量 
final int finalOffset = correctOffset (upto); 
offsetAtt.setOffset (finalOffset, finalOffset); 
} 


中 文中 的 “的 ”“ 了 ”等 虚词 在 文档 中 出 现 频率 较 高 ， 但 一 般 不 搜索 这 些 词 ， 这 样 不 被 索引 的 词 叫做 停 用 词 。Analyzer 可 能 会 去 掉 一 些 停 用 词 。 


public class NgramAnalyzer extends Analyzer { 
QOverride 
protected TokenStreamComponents createComponents (String fieldName, 
Reader reader) { 
BigramDictioanry dict = BigramDictioanry.getInstance("./dic/"); 
Tokenizer source = new NgramTokenizer (reader,dict); 
return new TokenStreamComponents (source); 


然后 需要 Tokenizer 的 工厂 类 CnTokenizerFactory 来 封装 Tokenizer 的 创建 细节 。 


public class CnTokenizerFactory extends TokenizerFactory implements 
ResourceLoaderAware { 
public CnTokenizerFactory (Map<String, String> args) { 
super (args); / /给 超 类 构造 函数 传 入 参数 
dicPath = args.get ("dicDir"); 


static BigramDictioanry dict; // 分 词 词典 
private String dicPath; 


QOverride 
public Tokenizer create (AttributeFactory factory, Reader input) { 
if (dicPath != null && dict==nul1) { 
dict = BigramDictioanry.getInstance (QicPath) 7 
} 
return new NgramTokenizer (factory,input, dict); 
} 
QOverride 
public void inform(ResourceLoader loader) { 
if (dicPath != null) { 
System.out .Println ("词典 路 径 =" + dicPath); 
dict = BigramDictioanry.getInstance (dicPath); 
} else { 
System.out .Println ("未 设置 词典 路 径 "); 
i 


2.1.3 ”概率 语言 模型 的 分 词 方法 


两 个 词 可 以 组 合成 一 个 词 的 情况 叫做 组 合 层 义 ， 如 “上 海 /银行 ” “上 海 银行 ” ， 最 大 长 度 匹 配 算法 无 法 正确 切 分 组 合 层 义 。 例 如 ， 会 把 “请 在 一 米线 外 等 候 ” 错 误 地 切 分 成 “一 /米线 ”而 不 是 “一 / 
米 / 线 ”。 


对 于 输入 字符 串 C“ 有 意见 分 层 ” ， 有 下 面 两 种 切 分 可 能 : 


S1: 有 / 意见 / 分歧/ 
S2: 有 意 /， 见 / 分歧/ 


这 两 种 切 分 方法 分 别 叫做 S1 和 S$2， 如 何 选择 这 两 个 切 分 方案 ”哪个 切 分 方案 更 有 可 能 在 语料库 中 出 现 就 选择 哪个 切 分 方案 。 


可 以 计算 条 件 概率 P (S1|C) 和 P (Sz|C) ， 然 后 根据 P (S1|C) 和 P (S2|C) 的 值 来 决定 选择 S1 还 是 S2。 


P(C) 


set (c, 5) =P (5) op (© = (9 x (9) , FS: x P S 
P(SIC)- a (5) 


上 面 的 公式 也 叫做 贝 叶 斯 公式 ，P (C) 是 字 串 在 语料库 中 出 现 的 概率 。 比 如 说 语料库 中 有 10，000 个 句子 ， 其 中 有 一 句 是 “有 意见 分 歧 ” 那 么 P (C) =P ("有 意见 分 歧 ") =1/10000。 


在 贝 叶 斯 公式 中 ，P (C) 只 是 一 个 用 来 归 一 化 的 固定 值 ， 所 以 实际 分 词 时 并 不 需要 计算 。 


P (ClS) 是 由 从 词 串 S 恢 复 到 汉字 串 C 的 概率 ,该 值 为 1， 即 P (CIS1) =P (ClS2) =1。 因 此 ， 比较 P (S1|C) 和 P (Sz|C) 的 大 小 ， 变 成 比较 P (5S1) 和 P (S2) 的 大 小 。 也 就 是 说 : 


P(S'|C) PCS) 
P(S,|C) P(S,) 


因为 P (S1) =P (有 ,意见 , 分 歧 ) >P (5S2) =P (有 意见, 分歧 ) ， 所 以 选择 切 分 方案 S1 而 不 是 S2。 


Wm， 其 中 m<n。 对 于 一 个 特定 的 字符 串 C， 会 有 多 个 切 分 方案 5 对 应 ,分 词 的 任务 就 是 在 这 些 S 中 找 出 一 个 


P(C|S)P(S) 
P(C) 


一 =argmax P(S)= arg max P(w,w,,…,wW,) 


EG W] ,Wy ,3 Wm E 


在 具体 的 分 词 过 程 中 ， 输 入 是 一 个 字 串 C=C1，C2，Cn， 输 出 是 一 个 词 串 S=W1，W2，…， 
切 分 方案 S， 使 得 P (SIC) 的 值 最 大 ，P (SIC) 就 是 由 字符 串 C 产 生 切 分 S 的 概率 。 最 可 能 的 切 分 方案 为 : 


BestSeg(c)= arg max P(S |C)= argmax 
SEG SEG 


也 就 是 对 输入 字符 串 切 分 出 最 有 可 能 的 词 序 列 。 


这 里 的 G 表 示 切 分 词 图 。 待 切 分 字符 串 C 中 的 某 个 子 串 构成 一 个 词 W， 把 这 个 词 看 成 是 从 开始 位 置 到 结束 位 置 j 的 一 条 有 向 边 。 把 C 中 的 每 个 位 置 看 成 点 ， 词 看 成 边 ， 可 以 得 到 一 个 有 向 图 ， 这 个 图 就 是 切 


分 词 图 G。 
概率 语言 模型 分 词 的 任务 是 : 在 全 切 分 所 得 的 所 有 结果 中 求 某 个 切 分 方案 5， 使 得 P (S) 为 最 大 。 那 么 ， 如 何 来 表示 P (S) 呢 ? 为 了 简化 计算 ， 假 设 每 个 词 之 间 的 概率 是 上 下 文 无 关 的 ， 则 


P(S)= P(Pw,w,,...,w, ) TP(Ww)x P(w,)X:… x P(w,) 


其 中 ，P (w) 就 是 词 w 出 现在 语料库 中 的 概率 。 例 如 : 


P(S ) = P( 有 , 意见 , 分歧) 汪 P( 有 ) x P 意 见 ) x P( 分 歧 ) 


对 于 不 同 的 5;，m 的 值 是 不 一 样 的 ,一 般 来 说 m 越 大 ，P (S) 值 越 小 。 也 就 是 说 ,分 出 的 词 越 多 ， 概 率 越 小 。 这 符合 实际 的 观察 ， 如 最 大 长 度 匹 配 切 分 往往 会 使 得 m 较 小 。 


词 表 中 的 词 往往 很 多 ,分摊 到 一 个 词 的 概率 可 能 很 小 ， 所 以 P (S) 一 般 是 通过 很 多 小 数值 的 连 乘积 算出 来 的 ， 如 果 一 个 数 太 小 ， 可 能 会 向 下 溢出 变 成 0。 例 如 0.00000000000000 
0000000000000001，double 类 型 表示 不 出 如 此 小 的 数 。 因 为 函数 y=log (x) ， 当 x 增 大 ，y 也 会 增 大 ， 所 以 是 单调 递增 函数 ， 取 log 后 ， 表 示 一 个 小 于 1 的 正 数 的 精确 度 加 大 了 。 


在 语料库 中 的 出 现 次 数 7z 
语料库 中 的 总 词 数 N 
log P(w,)= log(Fregq,,)-logN 


如 果 词 概率 的 对 数值 事前 已 经 算出 来 了 ， 则 结果 直接 用 加 法 就 可 以 得 到 logP (S) ， 而 加 法 比 乘法 速度 更 快 。 


计算 任意 一 个 词 出 现 的 概率 如 下 : 


P(w) = 


这 个 计算 P (5S) 的 公式 也 叫做 基于 一 元 概率 语言 模型 的 计算 公式 ， 这 种 分 词 方法 简称 一 元 分 词 ， 它 综合 考虑 了 切 分 出 的 词 数 和 词 频 。 一 般 来 说 ， 词 数 少 ， 词 频 高 的 切 分 方案 概率 更 高 。 假 设 有 一 种 特殊 
的 情况 : 当 所 有 词 的 出 现 概率 相同 时 ， 则 一 元 分 词 退 化 成 最 少 词 切 分 方法 。 


句子 切 分 的 准确 性 在 很 大 程度 上 取决 于 词语 的 上 下 文 。 比 如 ， “上海 银 行 闻 的 拆借 利率 上 升 ”， “上海 银 行 ”后 接 词 为 “ 间 ”， 这 决定 了 “上 海 银行 ”应 该 切 分 为 两 个 词 “ 上 海 ” 和 “银行 ”， 而 不 是 
一 个 专 有 名 词 “ 上 海 银行 ”。 


在 一 元 分 词 中 假设 前 后 两 个 词 的 出 现 概率 是 相互 独立 的 ， 在 实际 中 不 太 可 能 。 语 言 学 家 认为 ， 一 个 词语 的 含义 取决 于 它 周 围 的 词语 ， 也 就 是 说 ， 某 些 词语 会 以 很 大 概率 经 常 出 现在 一 起 ， 比 如 ， 甜 品 店 
附近 经 常 有 咖啡 馆 ， 所 以 这 两 个 词 是 正 相关 。 但 是 很 少 会 有 人 把 “甜品 店 ” 和 “沙县 小 吃 ” 相 提 并 论 ， 不过“ 庄 莫 ”“ 嫉 妨 ”“ 恨 ”这 三 个 词 有 时 候 会 连续 出 现 。 切 分 出 来 的 词 序 列 越 通顺 ， 越 有 可 能 是 正 
确 的 切 分 方案 。N 元 模型 使 用 n 个 单词 组 成 的 序列 来 衡量 切 分 方案 的 合理 性 。 比 如 ， 估 计 单 词 w1 后 出 现 wz 的 概率 ， 根 据 条 件 概率 的 定义 : 


P(w, | 
P(w, ) 


可 以 得 到 P (wi1, w2) =P (w1) P (wzlw1) 

同 理 “ P (w1，w2，w3) =P (Ww1, Ww2) P (walw1, w2) 

所 以 有 PP (wi1, w2, Ww3) =P (w1) P (wzlw1) P (walw1, w2) 
一 般 的 形式 为 : 


P(S)=PWwi, Ww Wn)= PT)P2|wi)POa3wDy2) PiwiWw2 Wn) 


这 叫做 概率 的 链 规则 。 其 中 ，P (wz|w1) 表示 w1 之 后 出 现 w2 的 概率 。 如 果 词 Ww1 和 w2 独 立 出 现 ， 则 P (wz|w1) 等 价 于 P (w2) 。 


这 样 需要 考虑 在 n-1 个 单词 序列 后 出 现 的 单词 w 的 概率 。 直 接 使 用 这 个 公式 计算 P (S) 会 存在 两 个 致命 的 缺陷 : 一 是 参数 空间 过 大 ， 不 可 能 实用 化 ; 另 一 个 是 数据 稀疏 严重 。 例 如 ， 词 汇 量 
(V) =20，000 时 ， 可 能 的 二 元 (bigrams) 组 合 数量 有 400，000，000 个 ; 可 能 的 三 元 (trigrams) 组 合 数量 有 8，000，000，000，000 个 ; 可 能 的 四 元 (4-grams) 组 合 数量 有 1.6x1017 个 。 


为 了 解决 这 个 问题 ， 我 们 引入 了 马尔 可 夫 假设 : 一 个 词 的 出 现 仅仅 依赖 于 它 前 面 出 现 的 有 限 的 一 个 或 者 几 个 词 。 


如 果 简化 成 一 个 词 的 出 现 仅 依赖 于 它 前 面 出 现 的 一 个 词 ， 那 么 就 称 为 二 元 语言 模型 (Bigram) ， 即 


P(S) = POWwi,wWw2,...,Wn)= POW1) POw2lw) Palwiy2)...PO|wiw2...Wr1) 
AP Pw wi) PWw3Ww2) POWwahwn1) 


例如 ，P (S1) =P (有 ) P (意见 | 有 ) P (分 歧 | 意 见 ) 


如 果 简化 成 一 个 词 的 出 现 仅 依赖 于 它 前 面 出 现 的 两 个 词 ， 那 么 就 称 之 为 三 元 语言 模型 (Trigram) 。 如 果 一 个 词 的 出 现 不 依赖 于 它 前 面 出 现 的 词 ， 则 叫做 一 元 语言 模型 (Unigram) ， 也 就 是 已 经 介绍 
过 的 概率 语言 模型 的 分 词 方法 。 


如 果 切 分 方案 5 是 n 个 词组 成 的 序列 ， 那 么 P (w1) P (wz|w1) P (wa3|w2) …P (wnlwn-1) 也 是 n 项 连 乘积 。 语 言 模 
连 乘积 。 例 如 ， 对 于 切 分 “产品 和 服务 ”来 说 ， 二 元 模型 计 


L 无 论 采 用 一 元 、 二 元 还 是 三 元 都 是 n 项 连 乘 积 ， 只 不 过 二 元 以 上 模型 是 条 件 概率 的 
: P (产品 ) P (和 | 产品 ) P (服务 | 和 ) ， 三 元 模型 计算 : P (产品 ) P (和 | 产品 ) P (服务 | 产品 ， 和 ) 。 


因为 P (wilw;-1) =freq (wi1，wi) /freq (wi-1) ， 所 以 二 元 分 词 不 仅 用 到 二 元 词典 ， 还 需要 用 到 一 元 词典 。 


概率 语言 模型 中 文 分 词 切 分 过 程 说 明 如 下 。 


(1) 把 输入 字符 串 切 分 成 句子 : 对 一 段 文 本 进行 切 分 ， 依 次 从 这 段 文 本 中 切 分 出 一 个 个 句子 ， 然 后 对 句子 逐个 进行 分 词 。 


(2) 原子 切 分 : 对 于 一 个 句子 的 切 分 ， 首 先是 通过 原子 切 分 ， 将 整个 句子 切 分 成 一 个 个 的 原子 单元 〈 即 不 可 再 切 分 的 形式 ， 例 如 


ava 这 样 的 英文 单词 可 以 看 成 不 可 再 切 分 的 ) 。 


(3) 生成 n 元 切 分 词 


[ 


: 根据 基本 词 库 对 句子 进行 全 切 分 ， 并 且 生 成 一 个 邻接 链表 表示 的 基本 词 图 ， 再 根据 基本 词 图 得 到 n 元 词 


网 


(4) 计算 最 佳 切 分 路 径 : 在 这 个 词 图 的 基础 上 ， 运 用 动态 规划 算法 找 出 切 分 最 佳 路 径 。 


(5) 按 Lucene 和 Elasticsearch 定 义 的 API 输 出 结果 。 


首先 执行 原子 切 分 ， 处 理 中 文 串 中 的 数字 或 者 英文 字符 串 ， 然 后 执行 二 元 概率 切 分 。 主 要 代码 如 下 : 


// 原 子 切 分 

fstSeg.seg (sentence,g); 

// 二 元 分 词 

GraphFactory.seg (sentence, g); 


二 元 切 分 词 图 简称 二 元 词 图 ，n 元 切 分 词 图 简称 n 元 词 图 。 我 们 可 以 考虑 如 何 得 到 二 元 词 图 。 一 个 词 的 开始 位 置 和 结束 位 置 组 成 的 节点 组 合 是 二 元 词 图 中 的 点 ， 前 后 两 个 词 的 转移 概率 作为 边 的 权重 


man 


图 如 图 2-4 所 示 。 


P( 意 | 有 ) 


P( 有 |Start) 


P( 分 歧 | 意见 ) 


P( 有 意 |Start) 


生成 词 图 ， 代 码 如 下 : 


public class LatticeFactory { 


public static TernarySearchTrie dic = null; // 词 典 树 
static FSTSGraph fstSeg; // 有 限 状态 转换 
static { 

try { 


fstSeg = new FSTSGraph (); 
} catch (Exception e) { 
e.printstackTrace (); 


} 


dic =(new DicFileFactory()) .create(); // 创 建 词典 树 
} 


public static AdjList getLattice (String text) throws Exception{ 
; - 区 


int sLen = text.length(); / 字符 串 长 
AdjList g = new RdjList(sLen + 2) 7 // 存 储 所 有 被 切 分 的 可 能 的 词 
// 原 子 切 分 


SegScheme schema = fstSeg.seg (text); 


// 用 来 存放 前 驱 词 的 集合 
ArrayList<WordEntry> prevWords = new ArrayList<WordEntry>(); 
// 从 前 往 后 求 出 每 个 节点 的 最 佳 前 驱 节 点 和 它 的 节点 概率 
int fromPoint = 0; 
while (fromPoint >= 0) { 
int start = schema.startPoints.nextSetBit (fromPoint); 
2 点 


// 开 始点 
int end = schema.endPoints.nextSetBit (fromPoint + 1); 


// 结 束 点 


fromPoint = schema.startPoints.nextSetBit (start + 1); 


// 从 词典 中 查找 前 驱 词 的 集合 
boolean match = dic.matchAll (text, start, prevWords,schema. 
endPoints); 


if (!match) { 

// 词 典 中 找 不 到 对 应 的 词 ， 则 返回 开始 点 和 结束 点 之 间 的 字符 串 

String word = text.substring (start, end); 

prevWords .add (new WordEntry (word, 1)); 

Node newEdge = 
new Node (start, start+word. length () ,Math.10g 
((double)1/dic.n)); 

g.addEdge (newEdge); // 词 图 增加 边 


:slset 
for (WordEntry w:previiords) { // 遍 历 找 到 的 每 个 词 
Node newEdge = 
new Node (start, Start+w.word.length () ,Math.1og 
((double)w.freq/dic.n)); 
g.addEdge (newEdge); // 词 图 增加 边 


} 


return g; 


二 元 分 词 方法 切 分 文本 的 代码 如 下 : 


public static List<String> split (String text) throws Exception { 


AdjList wordGraph = LatticeFactory.getLattice (text); _ // 得 到 词 图 
bestPrev (wordGraph); // 从 后 往 前 计算 最 佳 前 驱 节 点 


ArrayDeque<Node> seq = new ArrayDeque<Node>(); // 切 分 出 来 的 节点 序列 

// 从 后 向 前 找 最 佳 前 驱 节 点 

for (Node t = wordGraph.endNode.bestPrev; t.start > -1; 七 = 七 .bestPrev){ 
seq.addFirst (七 ) 7 

return bestPath (text, seq) 


从 后 往 前 计算 词 图 中 每 个 节点 的 最 佳 前 驱 节点 : 


public static AdjList bestPrev (RdjList wordGraph) throws Exception { 
for (Node currentNode : wordGraph) { // 从 前 往 后 遍历 切 分 词 图 中 的 每 个 节点 


// 得 到 当前 节点 的 前 驱 节点 集合 
NodeLinkedList prevNodes = wordGraph.prevNodes (currentNode) 7 


double nodeProb = minValue; // 侯 选 词 概率 
Node minNode = null; 
if (prevNodes == null) { 

currentNode.nodeProb = 0; 

continue; 


for (Node prevNode : prevNodes) { 


double currentProb = transProb (prevNode, currentNode) // 转 移 概 率 
+ prevNode.nodeProb; // 前 一 个 节点 的 节点 概率 


if (currentProb > nodeProb) { 
nodeProb = currentProb; 
minNode = prevNode; 
} 
} 
currentNode.bestPrev = minNode; // 设置 当前 词 的 最 佳 前 驱 词 
currentNode.nodeProb = nodeProb; // 设置 当前 词 的 词 概率 
} 


return wordGraph; 


然后 计算 节点 之 间 的 转移 概率 ， 代 码 如 下 : 


static double lambdal 
static double lambda2 
// 前 后 两 个 词 的 转移 概率 
private static double transProb (Node prevWord, Node currentWord) { 

double transProb = lambdal * currentWord.frq / LatticeFactory.dic.n + lambda2 


Ds // 平 滑 参数 
We 


* (bigramFreq / prevWord.frq); / /平滑 后 的 二 元 概率 
return transProb; // 得 到 转移 概率 


测 斌 分词， 代码 如 下 : 


String sentence = "巨星 和 莱 磺 隆 为 高 效 内 吸 药剂 ， 一 般 施 药 后 一 周 左右 杂 草 开始 枯黄 死亡 。"; 
Segmenter seg = new Segmenter (); 
List<WordTokenInf> words = seg.split (sentence); 
for (WordTokenInf word : words) { 
System.out .print (word.termText + " "); 


} 


为 了 更 准确 地 搜索 ， 可 以 标注 词性 ， 为 了 方便 指明 词 的 词性 ， 可 以 给 每 个 词性 编码 。 例 如 ， 根 据 英文 缩写 ， 把 “形容词 ”编码 成 a， 名 词 编码 成 n， 动 词 编码 成 v.…。 如 表 2-1 所 示 为 完整 的 词性 编码 表 。 


给 句子 标注 词性 , 例如 “不 /d 忘 /v 群众 /n 疾苦/n 温暖 /v 送 /v 进 /v 万 /m 家 /q”。 可 以 使 用 隐 马 尔 可 夫 模 型 (Hidden Markov Model，HMM) 实现 词性 标注 。 


表 2-1 词性 编码 表 


代 码 名 称 举 例 


11 形容 词 最 /4、 大 /a、 的 几 

ad 一 定 /d、 能 够 /v、 顺 利 /ad、 实 现 w、。/w 

ag 喜 /Vv、 笋 /ag、 人 /n 

an 人 民 和 mm、 的 几 、 根 本 /a、 利 益 m、 和 /ce、 国 家 mm 、 的 由 、 安 稳 /an、。/w 

b 副 /b、 书 记 /lm、 王 /nr、 思 章 /nr 

c 连词 全 军 /hn、 和 /c、 武 警 /n、 先 进 /a、 典 型 mn、 代表 /n 

d 副词 两 侧 企 台 柱 m、 上 /Af、 分 别 /4d、 雄 踊 /v、 着 几 

dg 副 语素 用 Av、 不 /d、 其 /dg、 流 利 /a、 的 m、 中 文 /nz、 主 持 /Vv、 节 目 n、。/w 

f 从 /p、 一 /m、 大 /a、 堆 /q、 档 案 mn、 中 丰 发现 Ww、 了 几 

h 目前 4、 各 种 4、 非 h、 合 作 制 h、 的 及 、 农 产品 用 

i 成 语 提高 /v、 农 民 /mn、 讨 价 还 价 i、 的 、 能 力 h、。/w 

j 简称 略语 民主 /ad、 选 举 w、 村 委 会 外 的 如 、 工 作 /vn 

k 权 责 nm、 明 确 /a、 的 必 、 逐 级 /4、 授 权 /W、 制 水 

| 是 VW、 建 立 v、 社 会 主义 /n、 市 场 经 济 m、 体 制 n、 的 n、 重 要 /a、 组 
成 部 分 1、。/w 

m 科学 技术 hh、 是 vw、 第 一 /m、 生 产 力 n 

n 名 词 希望 /wv、 双 方 mn、 在 /p、 市 政 /nh、 规 划 /vn 

ng 名 语素 就 此 /d4、 分 析 /v、 时 /Ng、 认 为 /v 

nr 建设 部 /nt、 部 长 hn、 伐 /nr、 捷 /nr 

ns 北京 /ns、 经 济 hn、 运 行 /vn、 态 势 /n、 喜 人 /a 

nt [冶金 nh、 工业 部 /m、 洛 阳 /ns、 耐 火 材料 A、 研究 院 /njnt 

nx A T M/nx、 交 换 机 /n 

nz 德 土 古 /nz、 公 司 /hn 

0 拟 声 词 泪 泪 /0、 地 /、 流 VV、 出 来 /v 

p 往 /p、 基 层 /n、 跑 Vv、。/w 

q 量词 不 止 w、 一 /m、 次 /q、 地 如、 听 到 /v、，/Aw 

T 有 些 /r+、 部 门 /n 

s 移居 、 海 外 /s、。/w 

t 当前 A、 经 济 m、 社 会 hn、 情况 /n 

te 秋 /Tg、 冬 /eg、 连 /4、 旱 /a 


逐 
到 


工作 /vn、 的 性、 政策 /n 
ud 结构 助词 有 NV、 心 h、 栽 WY、 得 /ud、 梧 桐 树 /n 


( 续 ) 


代 码 名 称 举 例 
ug 时 态 助词 你 f、 想 ww、 过 /ug、 没 有 /v 
uj 结构 助词 的 迈 向 /vy、 充 满 /v/、 希 望 h、 的 jj、 新 /a、 世 纪 /m 
ul 时 态 助 词 了 完成 /wv、 了 /ul 
uv 结构 助词 地 满怀 信心 由 、 地 mv、 开创 /v、 新 /a、 的 如 、 业 绩 m 
uz 时 态 助 词 着 眼看 /v、 着 /uz 
Vv 动词 举行 w、 老 /a、 干 部 nm、 迎春 /vn、 团 拜会 mn 
vd 副 动词 强调 /vd、 指 出 6 
Vg 动 语素 做 好 /Vv、 苯 /vg、 干 j) 、 爱 /Vv、 兵 /n、 工 作 /vn 
vn 名 动词 股份 制 h、 这 种 4+、 企业 m、 组 织 /vn、 形 式 /n、，/w 
Ww 标点 符号 生产 /NV、 的 扩 、5 Gmx、/w、8 G/nx、 型 k、 燃 气 h、 热 水 器 /n 
x 非 语素 字 生产 ww、 的 nn、5 Gmx、/w、8 Gmx、 型 淡 、 炊 气 m、 热 水 器 
y 语气 词 已 经 /d4、3 0 /m、 多 /mm 、 年 /4、 了 /y、。/w 
Z 状态 词 势头 /n、 依 然 /z、 强 劲 /la、; 人 w 


2.1.4 ”中 文 分 词 插 件 原 理 


Lucene 处 理 同 义 词 时 需要 把 同义词 表示 为 一 个 词 图 的 形式 。 例 如 ， 为 了 支持 按 同 义 词 搜索 ， 当 应 用 同义词 : 


domain name system 一 dns 


到 所 处 理 的 文本 中 : 


domain name system is fragile 


=] 


图 2-5 所 示 。 


name system is feagile 


使 用 属性 PositionIncrementAttribute 和 PositionLengthAttribute 编 码 的 词 图 


domain 


dns 


图 2-5 ”增加 同义词 dns 的 词 图 


然而 ,一 旦 将 此 文档 添加 到 Lucene 索 引 中 ， 一 些 图 结构 就 丢失 了 。 因 为 Lucene 忽 略 了 PositionLengthAttribute 属 性 ， 该 属性 会 规定 一 个 给 定 的 符号 何 时 终止 ， 这 样 导 致词 图 平坦 化 成 图 2-6 所 示 。 


这 样 ， 查 询 "dns is fragile" 便 无 法 匹配 它 应 该 匹配 的 文档 。 同 样 ， 查 询 "dns name system" 不 应 该 匹配 到 这 个 文档 ， 但 实际 却 会 匹配 上 。 


domain name system 个 18 Cs) 


图 2-6 ”平坦 化 的 词 图 


更 糟糕 的 是 ， 如 果 同 义 词 插入 了 多 个 符号 ,例如 ,将 上 述 折 和 去 规 则 反 转 为 一 个 扩展 规则 : 


dns — domain name System 


然后 分 析 如 下 文本 : 


dns is fragile 


那么 即使 是 由 synonymFilter 生 成 的 符号 ， 但 在 索引 之 前 就 已 经 被 平坦 化 了 ! 这 是 Lucene 面 临 的 同义词 处 理 方面 的 问题 。 


Elasticsearch 5.2.0 中 包含 的 Lucene 6.4.0 有 了 让 人 满意 的 解决 办 法 ， 可 以 进行 同义词 查询 ， 只 要 在 搜索 时 间 而 不 是 索引 时 间 应 用 同义词 即 可 。 


Elasticsearch 5.2.0 第 一 个 大 的 改变 是 增加 了 synonymGraphFilter 同 义 词 过 滤器 蔡 换 过 时 的 SynonymFilter 同 义 词 过 滤器 。 这 个 新 的 同义词 过 滤器 可 以 在 任何 情况 下 生成 如 图 2-4 所 示 的 正确 的 图 表示 ， 


不 管 你 输入 的 是 单个 符号 还 是 多 个 符号 。 此 外 ，Elasticsearch 5.2.0 还 有 一 个 新 的 FlattenGraphFilter 过 滤器 ， 可 以 压缩 图 符号 流 以 便 用 于 索引 。 如 果 确 实 需要 旧 的 SynonymFilter 一 样 的 行为 ， 那 么 可 以 在 


SynonymGraphFilter 同 义 词 过 滤器 后 接 一 个 过 滤器 FlattenGraphFilter， 但 是 FlattenGraphFilter 过 滤器 有 时 会 丢掉 一 些 图 结构 。 


Elasticsearch 5.2.0 改 进 的 第 二 个 方面 是 提高 了 查询 解析 器 的 效率 。 首 先 ， 旧 的 经 典 查询 解析 器 当 在 空格 时 会 终止 解析 预 切 分 的 输入 查询 文本 。 一 定 要 记 住 调用 setSplitOn Whitespace (false) ， 因 为 


空格 切 分 是 默认 的 设置 以 便 向 后 兼容 。 这 样 就 让 查询 时 的 解析 器 可 以 看 见 多 个 符号 而 不 是 把 每 个 符号 分 开 处 理 。 这 些 对 QueryBuilder 中 复杂 逻辑 的 简化 是 一 个 重要 的 引导 。 


PositionLengthAttribute 值 大 于 1 时 计算 如 图 2-4 所 示 的 图 中 所 有 的 路 径 。 在 Elasticsearch 中 ，match_query、query string 和 simple query_string 查 询 都 可 以 正确 处 理 词 图 。 


案 。 


Elasticsearch 5.2.0 改 进 的 第 三 方面 是 检查 查询 分 析 器 何 时 产生 图 表示 ， 并 且 生 成 合适 的 查询 。 现 在 查询 分 析 器 (也 就 是 基 类 QueryBuilder) 可 以 监控 PositionLengthAttribute， 当 符号 的 


上 述 的 改进 方面 可 以 让 我 们 在 查询 时 使 用 多 符号 同义词 ， 并 取得 精确 的 结果 。 比 如 ， 如 果 查 询 是 : 


dns is fragile 


如 果 没 有 引号 ， 那 么 过 滤器 SynonymGraphFilter 可 以 将 dns 扩展 到 domain name system， 然 后 查询 分 析 器 将 分 析 查 询 建 立 整个 图 表示 ， 并 且 计 算 整 个 图 中 的 不 同 路 径 : 


dns is fragile 
domain name system is fragile 


Elasticsearch 会 分 别 分 析 上 述 两 个 字符 串 ， 产 生 两 个 子 查询 ， 并 且 使 用 SHOULD 子 句 将 它们 组 合 在 BooleanQuery 中 。 如 果 原 始 查询 拥有 两 个 引号 ， 则 使 用 PhraseQuery 将 两 者 组 合 ， 产 生出 确定 的 答 


在 Lucene 6.5.0 中 ， 对 查询 器 QueryBuilder 的 优化 需要 分 析 查 询 的 图 表示 (关节 点 ) ， 以 生成 更 有 效 的 二 值 查询 器 ， 避 免 可 能 的 路 径 组 合 维度 过 大 。 这 种 优化 主要 难点 包括 : 如 何 存储 图 查询 ;如何 将 


二 值 处 理 器 应 用 到 同义词 扩展 ; 属性 minSshouldMatch 如 何 工作 等 。 例 如 ， 如 果 用 户 没有 加 括号 ， 但 是 插入 多 符号 查询 ， 该 使 用 短语 查询 还 是 默认 的 查询 解析 器 操作 符 呢 ”希望 在 图 查询 的 实践 经 验 中 能 找 


到 答案 。 


Kuromoji 日 语 形态 分 析 器 ， 已 经 可 以 生成 词 图 来 表示 整个 单词 和 可 能 的 子 单词 。 此 外 ， 还 有 其 


四 


表示 的 图 过 滤器 。 在 Lucene 6.5.0 版 本 中 ，WordDelimiterFilter 将 会 被 替换 成 WordDelimiterGraphFilter。 针 对 日 语 的 处 理 器 JapaneseTokenizer 基 于 
他 的 词 过 滤器 ， 如 shingles、ngrams 等 ， 它 们 都 应 该 生成 图 输出 ， 但 是 还 没有 修订 。 


网 


除了 同义词 外 ，Lucene 还 有 更 多 的 生成 


为 了 处 理 多 符号 同义词 ， 必 须 在 查询 时 使 用 同义词 处 理 器 ， 而 不 是 在 索引 时 使 用 ， 因 为 Lucene 的 索引 还 不 能 存储 词 图 表示 。 和 索引 时 同义词 处 理 相 比 ， 查 询 时 的 同义词 处 理 需要 更 多 的 CPU 和 MO 工作 
因为 需要 访问 更 多 的 术语 来 回答 问题 ， 但 是 索引 库 小 多 了 。 查 询 时 的 同义词 处 理 更 灵活 ， 因 为 当 改变 同义词 时 ， 不 需要 再 次 建立 索引 。 


另外 一 个 挑战 是 SynonymGraphFilter， 它 在 生成 正确 的 图 表示 时 ， 不 能 处 理 图 表示 ， 这 意味 着 在 使 用 WordDelimiterGraphFilter 或 japaneseTokenizer 后 不 能 使 用 Synonym GraphFilter， 而 且 希 望 


同义词 会 匹配 输入 图 的 片段 。 


2.1.5 “开发 中 文 分 词 插件 


本 节 来 写 一 个 支持 Lucene 6.6.0 的 分 词 器 ， 项 目 中 除了 基本 的 Ilucene-core-6.6.0jar、lucene-codecs-6.6.0jar、junit-4.10Jjar 文 件 外 ， 还 需要 添加 randomizedtesting-runner-2.5.2jar 和 lucene- 


test-framework-6.6.0Jjar 这 两 个 jar 文 件 。 


方 ; 


如 果 使 用 Maven， 则 需要 添加 依赖 关系 : 


<dependency> 
<groupId>org.apache.1lucene</groupId> 
<artifactId>lucene-test-framework</artifactId> 
<version>6.6.0</version> 
<scope>test</scope> 
</dependency> 


测试 中 文 分 词 Tokenizer: 


String sentence = "我 们 胜利 了 "7 
StringReader input = new StringReader (sentence) 7 
BigramDictioanry dict = BigramDictioanry.getInstance("./dic/"); 
BigramTokenizer tokenizer = new BigramTokenizer (dict); 
tokenizer.setReader (input); 
tokenizer.reset () 7 
while (tokenizer.incrementToken()) { 

CharTermAttribute termAtt = tokenizer 

.getAttribute (CharTermAttribute.class); 

System.out .println ("term:" + termAtt); // 打印 词 

} 


tokenizer.close (); 


测试 类 需要 生成 随机 值 ， 用 所 有 可 能 的 数据 测试 用 户 的 代码 ， 以 便 将 来 用 户 的 代码 能 够 处 理 任何 类 型 的 数据 。RandomizedTesting 是 一 个 随机 测试 基础 设施 ， 使 用 Randomized Test.randomlnt () 
去 可 得 到 随机 整 型 值 。 下 面 是 一 个 使 用 RandomizedTest 的 例子 。 


public class TestUsingRandomness extends RandomizedTest { 
QTest 
Public void expectNoException() { 
String [] words = {"oh", "my", "this", "is", "bad."}; 


// 从 上 面 的 数组 中 选 出 一 个 随机 词 


System.out .Println (words [Math.abs (randomInt ()) % words.length]); 


MockAnalyzer 和 MockTokenizer 用 


于 分 析 相 关 的 测试 词语 ， 相 关 的 测试 代码 如 下 : 


public class TestIndex extends RandomizedTest { 


public static void test1l () throws IOException { 
Analyzer analyzer = new MockAnalyzer (LuceneTestCase.random(), 
MockTokenizer.SIMPLE, true); 
Directory rd = new RAMDirectory () 7 
IndexWriter w = new IndexWriter (rd, new IndexWriterConfig 
(analyzer) ) 7 


增加 引用 的 jar 包 : lucene-analyzers-common-6.6.0.jar。 实 现 中 文 分 词 的 TokenizerFactory 工 厂 类 BigramTokenizerFactory 代 码 如 下 : 


public class BigramTokenizerFactory extends TokenizerFactory{ 


protected BigramTokenizerFactory (Map<String, String> args) { 
super (args); 
} 


QOverride 
public Tokenizer create (AttributeFactory factory) { 
String dicPath = "./dic/™; 


BigramDictioanry dict = BigramDictioanry.getInstance (dicPath); 
return new BigramTokenizer (factory,dict); 


BaseTokenStreamTestCase 是 所 有 使 用 TokenStreams 的 Lucene 单 元 测试 的 基 类 。 使 


BaseTokenStreamTestCase 测 试 BigramTokenizerFactory 的 代码 如 下 : 


public class TestBigramTokenizerFactory extends BaseTokenStreamTestCase{ 


public void testSimple() throws Exception { 
Reader reader = new StringReader ("我 购买 了 道具 和 服装 。") ; 
TokenizerFactory factory = 
new BigramTokenizerFactory (new HashMap<String,String>()); 
Tokenizer tokenizer = factory.create (newAttributeFactory()); 
tokenizer.setReader (reader); 
assertTokenStreamContents (tokenizer, 


new String[] {“" 我 "，" 购 买 "，" 了 "，" 道 具 "， "和"，" 服 装 "，"。" }); 


编写 支持 词性 标注 的 NgramAnalyzer: 


package com.lietu.bigramSeg; 

import org.apache.lucene.analysis.Analyzer; 
import org.apache.lucene.analysis.Tokenizer; 
import org.apache.lucene.util.AttributeFactory; 


public class NgramAnalyzer extends Analyzer { 
BigramDictioanry dict; 
Tagger tagger; 


public NgramAnalyzer (String p) { 
init (p); 
} 


public NgramAnalyzer() { 
String path = "./dic/"; 
init (path); 

} 


public void init (String dicPath){ 
dict = BigramDictioanry.getInstance (dicPath); 
tagger = Tagger.getInstance (dicPath); 


QOverride 
protected TokenStreamComponents createComponents (String arg0) { 
Tokenizer source = new NgramTagnizer ( 


AttributeFactory.DEFAULT ATTRIBUTE FACTORY, dict,tagger); 


return new TokenStreamComponents (source); 


可 以 增加 语义 规则 提高 切 分 准确 度 。 例 如 ， 根 据 地 名 的 词性 编码 ns， 得 到 语义 规则 "去 <ns>"。 整 合 语义 规则 的 分 词 实现 代码 如 下 : 


RuleSegmenter se 
String word = " 
String mean = "ns"; 

seg.dic.addWord (word, mean); 


new RuleSegmenter (); 


了 


// 去 + 地 名 


String Pattern = "去 <ns>"; 
seg.addRule (pattern); 


String text = "提出 去 北京 "; 

AdjList g = seg.combineSuc (text); 
ArrayDeque<Integer> path = seg.bestPath (g); 
// 输出 切 分 结果 


int start = 0; 

for (Integer end : path) { 
System.out .print (text.substring (start, end) + "/ "); 
start = end7 


2.1.6 支持 Elasticsearch 的 插件 


本 节 参 考 IK 分 词 插件 (网址 为 https://github.com/medcl/elasticsearch-analysis-ik) 使 


在 Eclipse 中 显示 这 个 错误 如 下 : 


Maven (m2eclipse) 建立 一 个 项 目 。 


Description Resource Path Location Type Could not calculate build plan: 


Failure to transfer org.apache.maven.plugins:maven-compiler-plugin: 
pom:2.0.2from http://repol.maven.org/maven2 was cached in the local 
repository, resolution will not be reattempted until the update interval 
of central has elapsed or updates are forced. Original error: Could not 
transfer artifact org.apache.maven.plugins:maven-compiler-plugin:pom: 
2.0.2 from/to central (http://repol.maven.org/maven2): No response 
received after 60000 ExampleProject Unknown Maven Problem. 


找到 {user》.m2/repository 目 录 ， 在 窗口 右上 角 的 “搜索 ” 栏 中 输入 “.lastupdated”， 在 repository 目 录 中 查看 这 些 文件 的 所 有 子 文件 夹 。 通 过 右 击 并 选择 “删除 ”命令 来 删除 它们 。 然 后 回 到 
Eclipse 中 ， 右 击 项 目 并 选择 Maven| “更 新 项 目 ”命令 ， 在 弹出 的 对 话 框 中 选择 “Force Update of Snapshots/Releases”， 单 击 “ 确 定 ”按钮 ， 依 赖 关系 终于 可 以 正确 解析 。 


首先 创建 仅 包含 一 个 PLUGIN_NAME 属 性 的 类 AnalysisBgsegPlugin， 然 后 编写 支持 中 文 的 AnalyzerProvider 类 。 代 码 如 下 : 


package org.elasticsearch.index.analysis; 
import java.nio.file.Path; 


import org.elasticsearch.common.settings.Settings; 

import org.elasticsearch.env.Environment; 

import org.elasticsearch.index.IndexSettings; 

import org.elasticsearch.plugin.analysis.bgseg.AnalysisBgsegPlugin; 


import com.lietu.bigramSeg.NgramAnalyzer; 
public class BigramAnalyzerProvider extends AbstractIindexAnalyzerProvider 
<NgramAnalyzer> { 

private final NgramAnalyzer analyzer; 


public BigramAnalyzerProvider (IndexSettings indexSettings, 
Environment env, String name, Settings settings) { 
super (indexSettings, name, settings); 
// 得 到 词典 路 径 
Path dicPath = env.configFile () .resolve (AnalysisBgsegPlugin. 
PLUGIN NAME); 


analyzer=new NgramAnalyzer (QicPath.toString())7 
} 


QOverrigde public NgramAnalyzer get() { 
return this.analyzer; 


} 


在 Elasticsearch 中 使 用 的 TokenizerFactor 工 厂 类 BigramESTokenizerFactory: 


package org.elasticsearch.index.analysis; 


import org.apache.lucene.analysis.Tokenizer; 

import org.elasticsearch.common.settings.Settings; 

import org.elasticsearch.env.Environment; 

import org.elasticsearch.index.IndexSettings; 

import org.elasticsearch.plugin.analysis.bgseg.AnalysisBgsegPlugin; 


import com.lietu.bigramSeg.BigramDictioanry; 
import com.lietu.bigramSeg.BigramTokenizer; 


import java.nio.file.Path; 


public class BigramESTokenizerFactory extends AbstractTokenizerFactory { 
private Path dicPathy // 词 典 路 径 


public BigramESTokenizerFactory (IndexSettings indexSettings, 
Environment env, 
String name, Settings settings) { 
super (indexSettings, name, settings); 
dicPath = env.configFile().resolve (AnalysisBgsegPlugin. 
PLUGIN NAME); 
} 


QOverride 
public Tokenizer create() { 
// 得 到 二 元 词典 
BigramDictioanry dict = BigramDictioanry 
.getInstance (dicPath.tostring()); 
return new BigramTokenizer (dict); 


完善 插件 类 AnalysisBgsegPlugin: 


package org.elasticsearch.plugin.analysis.bgseg; 


import java.util.HashMap; 
import java.util.Map; 


import org.apache.lucene.analysis.Analyzer; 

import org.elasticsearch.index.analysis.AnalyzerProvider; 

import org.elasticsearch.index.analysis.BigramAnalyzerProvider; 
import org.elasticsearch.index.analysis.BigramESTokenizerFactory; 
import org.elasticsearch.index.analysis.TokenizerFactory; 

import org.elasticsearch.indices.analysis.AnalysisModule; 

import org.elasticsearch.plugins.AnalysisPlugin; 

import org.elasticsearch.plugins.Plugin; 


public class AnalysisBgsegPlugin extends Plugin implements AnalysisPlugin { 
public static String PLUGIN NAME = "analysis-bgseg"; 


QOverride 
public Map<String, AnalysisModule.AnalysisProvider 
<TokenizerFactory>> getTokenizers() { 
Map<String, AnalysisModule.AnalysisProvider<TokenizerFactory>> 
extra = new HashMap<>(); 


// 通 过 构造 方法 得 到 Tokenizer 工 厂 类 


extra.put ("bs_max_ word"，BigramESTokenizerFactory: :new) 7 


return extra; 


} 


QOverride 
public Map<String, AnalysisModule.AnalysisProvider<AnalyzerProvider 
<? extends Analyzer>>> getAnalyzers() { 
Map<String, AnalysisModule.AnalysisProvider<AnalyzerProvider<? 
extends Analyzer>>> extra = new HashMap<>(); 
// 通 过 构造 方法 得 到 AnalyzerProvider 类 
extra.put ("bs _ max word", BigramAnalyzerProvider::new); 


return extra; 


2.1.7 “中文 分 析 器 提供 者 


可 以 把 生成 的 elasticsearch-analysis-bs-5.5.0jar 文 件 放 入 插件 路 径 下 D: \elasticsearch-5.5.0\plugins\bs， 或 者 使 用 elasticsearch-plugin 来 安装 : 


./bin/elasticsearch-plugin install elasticsearch-analysis-bs-5.5.0.zip 


在 elasticsearch.yml 配 置 文件 中 增加 中 文 分 析 器 : 


index: 
analysis: 
analyzer: 
en; 
alias: [cn analyzer] 
type: org.elasticsearch.index.analysis.BigramAnalyzerProvider 


index.analysis.analyzer.default.type 
: " org.elasticsearch.index.analysis.BigramAnalyzerProvider 


可 以 使 用 CURL 测 试 分 析 器 : 


# curl -XGET 'localhost:9200/_analyze?pretty' -H 'Content-Type: 
application/json' -d' 


"analyzer" : "standard", 
"text" ; "this is a test" 


}! 


也 可 以 在 head 揪 件 中 测试 这 个 分 析 器 ，head 插 件 中 的 索引 选项 下 面 有 个 test analyze 选 项 。 设 置 全 局 默认 分 词 会 看 到 按 词 切 分 的 效果 ， 如 果 没 有 设置 ， 则 还 是 会 按照 Elasticsearch 默 认 的 一 元 分 词 来 处 
理 。 可 以 先 创建 一 个 索引 库 ， 然 后 在 这 个 索引 上 测试 分 词 器 。 


查看 分 词 效果 的 命令 如 下 : 


_analyze?text=" 我 爱 北京 天 安 门 '&analyzer=standard 
_analyze?text=' 我 爱 北京 天 安 门 '&analyzer=cn 


例如 ，news 索 引 使 用 如 下 的 测试 地 址 : 


http://localhost:9200/news/_analyze?analyzer=cn&text=' 我 爱 北京 天 安 门 ' 
http://localhost:9200/news/_analyze?analyzer=standardgtext=' 我 爱 北京 天 安 门 ' 


inquisitor (https://github.com/polyfractal/elasticsearch-inquisitor) 
是 个 测试 分 词 的 辖 人 


index_analyzer 代 表 这 个 字段 建立 索引 时 使 用 的 分 词 方式 ，search_analyzer 代 表 对 这 个 字段 搜索 时 使 用 的 分 词 。 


可 以 使 用 Mappings 在 索引 中 指定 切 分 方式 。 示 例如 下 : 


"recruitinfo":{ 
"properties":{ 
wid"™:{ 
"type":"string", 
"index":"not_analyzed" 


"type": "string", 
"term vector": "with positions offsets", 
"index analyzer": "cn", 

"search analyzer": "cn", 

"store":"yes" 


使 用 这 个 Mappings: 


client .admin() .indices () .prepareCreate (indexName) 
.SetSettings ("http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/OEBPS/Text/... your JSON settingshttp://www.hzcourse.com/resource/rea 
.addMapping (type, "http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/OEBPS/Text/... your mappinghttp://www.hzcourse.com/resource/r 


2.1.8 “ 字 词 混合 索引 


查询 某 些 短语 时 ， 按 字 分 词 列 和 按 词 分 词 列 的 返回 结果 数量 是 不 一 样 的 。 测 试 代码 如 下 : 


public static void searchField(String field,String keyWords ){ 
MatchQueryBuilder qb = QueryBuilders.matchPhraseQuery (fielg, 
keyWords); 


Client client = getClient () 7 

SearchResponse searchResponse = Client 
.PrepareSearch (ESConfig.indexName) .setQuery (qb) .execute () 
.actionGet (); 

SearchHits hits = searchResponse.getHits(); 


long totalHits = hits.getTotalHits () 7 // 得 到 结果 总 数 
System.out .Println("totalHits:" + totalHits); 


分 别 使 用 按 字 分 词 列 和 按 词 分 词 列 执行 搜索 : 


String keyWords = " 自 定义 分 词 器 "; 
String field = "contentsSs"; 
searchField (field ,keyWords); // 按 字 查 询 


field = "contents"; enh 
searchField (field ,keyWords); // 按 词 查询 


输入 相同 的 查询 词 后 返回 的 结果 数量 不 一 样 。 


为 了 保证 搜索 的 查 全 和 查 准 性 ， 对 全 文 查询 列 采用 单字 索引 和 词 索引 两 列 都 索引 同样 内 容 的 方法 。 对 于 标题 ， 按 字 索 引 的 列 在 Mapping 中 定义 如 下 : 


"stitle" 
"type" 
"term vector": "with positions offsets", 
"index analyzer": "standard", 
"search analyzer": "standard", 


"store":"yes 


}, 


按 词 索引 的 列 在 Mapping 中 定义 如 下 : 


HE Let 
"type":"string", 
term vector™:s ™ 
"index analyzer 
"search analyzer": 
"Stove" ?yea 


ith positions offsets", 
nen", 


cn", 


这 里 的 cn 是 在 配置 文件 中 指定 的 ，standard 是 Elasticsearch 自 带 的 。 


打开 Index Metadata， 可 以 看 到 索引 库 的 结构 。 我 们 可 以 用 java 代码 修改 索引 库 的 结构 ， 增 加 字 索 引 列 。 


定义 Mapping,， 一 列 是 按 字 索引 ， 另 外 一 列 是 按 词 索 引 。D: \elasticsearch-5.5.0\config\mappings\news 目 录 下 的 type1.json 内 容 如 下 : 


"typel":{ 
"properties":{ 
"type" 
"term vector": "with positions offsets", 
"index analyzer": "cn", 
"search analyzer": ". 


"eatore"s "yes" 


}, 
"boady": { 
"type": "string", 
"term vector": "with positions offsets", 
"index analyzer wom, 
"search analyzer": "cn", 
"atore"s "Yes" 


}, 
"stitle": 
ntypen 
"term Vector" : ith positions offsets", 
"index analyzer "standard", 
"search analyzer": "standard", 


"store": "yes" 


string", 
"term vector": "with positions offsets", 
"index analyzer": "cn", 
"search analyzer": "cn", 


"etore" "yes" 


使 用 API 创 建 JSON 内 容 : 


XContentBuilder mapping = XContentFactory 
.jsonBuilder () 
.startObject () 
.StartObject (indexType) 
.startObject ("properties") 
.startObject ("title") 
.field("type", "string") 
// start title 


.field("store", "yes") 
.field("analyzer", "cn") // 词 
.endOobject () 


// end title 

.startObject ("postDate") 

.field("type", "date") .field("store", "yes") 
.field("index", "analyzed") 

.endobject () 

// end post date 

.StartObject ("body") 

.field("type", "string").field("store", "yes") 
.field("index analyzer", "standard") // 字 
.field("search analyzer", "standard") 
.endobject () // end field 

.endobject () // end properties 

.endobject () // end index type 

.endOobject () 


为 了 保证 连续 匹配 的 文档 得 分 高 ， 我 们 把 短语 查询 和 普通 的 模糊 查询 组 合成 布尔 查询 。 写 法 如 下 : 


// 短 语 查询 

MatchQueryBuilder pqTitle = QueryBuilders.matchPhraseQuery (title, 
qstring); 

MatchQueryBuilder pqTitle2 = QueryBuilders.matchPhraseQuery (title2, 
qstring); 


MatchQueryBuilder pqBody = QueryBuilders.matchPhraseQuery (body, qsString); 
MatchQueryBuilder pqBody2 = QueryBuilders.matchPhraseQuery (body2, 
qstring); 
// 痢 通 模糊 查询 
QueryStringQueryBuilder fuzzyQb = new QueryStringQueryBuilder (qsString) 
.field(title2) .field (body2) .field (title) .field (body); 
/ /把 上 面 的 查 洛 组 合成 布尔 查询 每 到 最 终 的 查 洛 
QueryBuilder qb = 
queryBuilders .boolQuery () .should (pgqTitle2) .should (pgqTitle). 
should (pgqBody2) .should (pqBody) .should (fuzzyQb); 


2.2 ”提高 分 词 准 确 度 


因为 n 元 连接 的 稀 玻 性 ， 所 以 可 以 采用 爬虫 补充 n 元 连接 。 从 必 应 词典 获取 二 元 连接 的 代码 如 下 : 


public static Has 


hMap<Bigram, int[]> getPairsByWordAndoffset (String word, 
int pageOffet, 
CloseableHttpClient httpclient) throws Exception { 
String urlAjax = "http://cn.bing.com/dict/service?q=" 
+ URLENCoOder .encode (word, "UTF-8") + "&offset=" 
+ URLEncoder .encode (pageOffet + "", "UTF-8") + "&dtype=sen"; 
HttpGet httpgetAjax = new HttpGet (urlAjax); 
HttpResponse responseAjax = httpclient .execute (httpgetAjax); 


HttpEntity entityAjax = responseAjax.getEntity(); 
HashMap<Bigram, int[]> table = new HashMap<Bigram, int[]>(); 


if (entityAjax != null) { 
// 读 入 内 容 流 并 以 字符 串 形式 返回 ， 这 里 指定 网 页 编码 是 UTF-8 
// 网 页 的 Meta 标 签 中 指定 了 编码 
String content = EntityUtils.toString (entityAjax, "utf-8"); 
// System.out .Println (content); 
Document doc = Jsoup.parse (content) 7 
Elements elementsLi = doc.select(".se 1i"); 
if (elementsLi == null || elementsLi.size() == 0) { 
return null; 


} 
// Jsoup 处 理 提取 目标 内 容 


for (Element pairs : elementsLi) { 


if (pairs.select(".se 1i1").size() 一 0) { 
continue; 

} 

Element s = pairs.select(".se 1i1").first (); 


if (ls.select(".sen en").size() 一 
[| 8.select{(".sen en") .size() == 0) 1 
continue; 
} 
Element senCn = s.select(".sen cn").first(); 
Elements wordEs = senCn.children(); 
String preWord = null; 


for (Element w : wordEs) { 
if (preWord 一 null) { 
preWord = w.text (); 
continue; 
} 
String curWord = w.text () 7 
Bigram bigram = new Bigram(preWord, curWord); 


Object biItem = table.get (bigram); 
if (biItem != null) { 
((int[]) biItem) [0]++; 
} else { 
int[] count = {911}; 
table.put (bigram, count); 
} 
preWord = curWord; 
E 
] i 
EntityUtils.consume (entityAjax); // 关 闭 内 容 流 
i 


return table; 


参考 其 他 数据 来 源 ， 筛 选 出 有 效 的 二 元 连接 并 存 入 数据 库 。 


String insertSQL = "insert into bigram(prev,next)values(?,?)"; 
QueryRunner runner = new QueryRunner (); 


for (Entry<Bigram, int[]> e : table.entrySet()) { 
Bigram key = e.getKey (); 


if (bigrams .contains (key)) { 
runner.update (conn，insertSQL， key.prev, 
key.next) 


2.3 “本章 小 结 


点 介绍 了 n 元 概率 语言 模型 的 分 词 插件 开发 与 使 用 。 为 了 使 用 Elasticsearch 准 确 地 搜索 中 文 ， 除 了 使 用 字 词 混合 索引 的 方法 ， 还 可 以 使 用 IKAnalyzer。 


本 章 


由 


对 于 亚洲 其 他 国家 的 语言 ， 如 日 文 分 词 可 以 使 用 Kuromoji (下 载 地 址 是 https://github.com/atilika/kuromoji) ; 韩文 分 词 可 以 使 用 Korean Analysis for ElasticSearch (下 载 地 址 


是 https://github.com/usemodj/elasticsearch-analysis-korean) 。 


第 3 章 ”Mapping 详 解 


在 使 用 数据 库 时 ， 通 过 DDL (Data Definition Language) 定义 模式 (Schema) ， 也 就 是 一 套 相 关 的 表 结构 。 例 如 ， 定 义 一 个 模式 中 的 新 闻 表 如 下 : 


CREATE TABLE "news" ( 


wurl" string PRIMARY KEY NOT NULL ， 一 -网 址 
"title" text, -标题 
"body" text， =-- 内 容 
"pubdate" DATETIME) 一 -发 布 时 间 


不 同 的 字段 类 型 有 不 同 的 操作 方式 。 为 了 能 够 把 日 期 字段 处 理 成 日 期 ， 把 数字 字段 处 理 成 数字 ， 把 字符 串 字段 处 理 成 全 文本 (Full-text) 或 精确 的 字符 串 值 ，Elasticsearch 需 要 知道 每 个 字段 是 什么 类 
型 。 


3.1 索引 模式 


Elasticsearch 中 的 索引 模式 叫做 Mapping。 索 引 中 的 每 个 文档 都 有 一 个 type (类 型 ) ， 每 个 type 拥 有 自己 的 模式 或 者 模式 定义 (Schema Definition) 。 一 个 Mapping 中 定义 的 有 字段 类 型 、 每 个 字段 
的 数据 类 型 ， 以 及 字段 被 Elasticsearch 处 理 的 方式 。Mapping 还 可 用 于 设置 关联 到 type 上 的 元 数据 。 


首先 创建 索引 ， 然 后 再 创建 索引 上 的 类 型 。 例 如 ， 创 建 一 个 叫做 test 的 索引 ， 代 码 如 下 : 


} 


1 #curl -XPUT http://localhost:9200/test -d' 

2 1 

怠 "settings" ; { 

4 "index™" ; { 

驴 "number of shards" : 3, // 设 定 了 索引 的 分 片 数量 
6 "number of replicas" : 2 // 副 本 数量 

7 

8 

和 


3.1.1 创建 模式 


下 面 定义 了 一 个 搜索 书籍 的 模式 。 首 先 ， 在 Linux 命 令 行 下 使 用 Micro 编 辑 器 编辑 mappingjson 文 件 : 


# micro mapping.json 


mappingjson 文 件 的 内 容 如 下 : 


"book" : { 
"properties" : { 

"author" : { // 定 义 字符 串 类 型 的 作者 列 
"type" : "string" 

ka 

"title" : { // 定 义 字符 串 类 型 的 标题 列 
ntype" : "string" 

] 

"year" : { // 定 义 长 整 型 类 型 的 年 份 列 
ntype" : "Longn 

Ey 

"available" : { // 定 义 布尔 类 型 的 列 ， 表 示 能 否 买 到 这 本 书 
"type" : "boolean", 
"index" :; "analyzed" 


然后 使 用 这 个 模式 定义 书籍 索引 结构 : 


#curl -XPUT 'http://localhost:9200/<indexname>/book/_mapping' -d 
Q@mapping .json 


返回 结果 如 下 ， 则 表示 成 功 执行 。 


{"acknowledged":true} 


接着 通过 元 字段 "parent" 定 义 一 个 父子 关系 模式 。 使 用 Micro 编 辑 器 编辑 mapping_parent.json 文 件 : 


# micro mapping parent .json 


mapping_parent.json 文 件 的 内 容 如 下 : 


"book" : { // 定 义 图 书 索引 库 结构 
"properties" : { 加 
ntitlen : { // 定 义 字符 串 类 型 的 标题 列 
"type” : "string" 
}, 
"year" : { // 定 义 长 整 型 类 型 的 年 份 列 
"type" : "long" 
}, 
"available" : { // 定 义 布尔 类 型 的 列 ， 表 示 能 否 买 到 这 本 书 
"type" : "boolean", 
"index" : "analyzed" 
} 
} 
] 
"authors": { // 定 义 作者 索引 库 结构 
"properties": { 
"first name": { "type": "keyword" }, // 定 义 关键 词类 型 的 first_name 列 
"last name": { "type": "keyword" } // 定 义 关键 词类 型 的 last_name 列 
}, 
"_parent": { // 声 明 作 者 索引 库 的 父 类 型 books 


"type": "books" 


除了 已 经 介绍 过 的 当 增加 文档 时 需要 填 入 数据 的 字段 外 ， 还 有 元 字段 (Meta-fields) 。 元 字段 是 用 于 定义 如 何 处 理 关联 文档 的 元 数据 ， 包 括 文 档 的 index、_type、_id 和 _source 字 段 。 


3.1.2 ”修改 模式 


可 以 使 用 PUT Mapping API 将 新 类 型 添加 到 现 有 的 索引 中 ， 或 将 新 字段 添加 到 现 有 类 型 中 。 


首先 创建 一 个 没有 任何 类 型 映射 ， 叫 做 blog 的 索引 。 


#curl -XPUT 'localhost:9200/blog?pretty' -H 'Content-Type: 
application/json' -d'{}"' 


然后 添加 名 为 user 的 新 Mapping 类 型 。 


#curl -XPUT 'localhost:9200/blog/ mapping/user?pretty' -H 'Content-Type: 
application/json' -d' 


"properties": { 


"type": "text" 


向 user 类 型 中 添加 一 个 名 为 email 的 新 字段。 


和 


#curl -XPUT 'localhost:9200/blog/_mapping/user?pretty' -H 'Content-Type: application/json' -d 
{ 


"properties": { _ 
"email": { // 增 加 一 个 关键 词类 型 的 email 列 
"type": "keyword" 
} 
1 


不 可 能 删除 某 个 类 型 的 映射 ， 因 为 Elasticsearch 没 有 提供 这 样 的 API。 为 了 实现 这 样 的 效果 ， 可 以 删除 索引 ， 并 用 新 的 Mapping 重 新 创建 索引 ， 如 删除 test 索 引 : 


# curl -XDELETE localhost:9200/test 


程序 以 使 用 新 的 索引 名 称 ， 这 时 ， 可 以 使 


Elasticsearch 的 Mapping 一 旦 创建 ， 只 能 增加 字段 ， 而 不 能 修改 已 有 的 Mapping 字 段 ， 因 此 可 以 创建 一 个 新 的 索引 。 但 重建 索引 过 程 需要 更 新 应 有 
来 实现 修改 索引 的 零 停 机 时 间 。 


索引 别名 就 像 一 个 快捷 方式 或 符号 链接 ， 它 可 以 指向 一 个 或 多 个 索引 ， 并 且 可 以 在 任何 需要 索引 名 称 的 API 中 使 用 。 别 名 为 我 们 提供 了 灵活 性 。 例 如 ， 为 test 索 引 创建 别名 : 


索引 别名 


#curl -XPOST 'http://localhost:9200/ aliases' -d ! 
{ 


aotiong rs 下 


{"agdgd": {"index": "test", "alias": "alias1"}} // 为 test 增 加 一 个 叫做 alias1 的 别名 


] 
站 


可 以 使 用 Reindex API 把 源 索 引 的 数据 导入 到 目标 索引 中 。 


Reindex 不 会 自动 建立 目标 索引 ， 也 不 会 复制 源 索 引 的 设置 ， 要 在 运行 reindex 操 作 之 前 建立 目标 索引 ， 包 括 建立 映射 、 分 片 计数 和 副本 等 。 


3.2” Mapping 数据 类 型 


不 同 的 数据 类 型 可 以 进行 不 同 的 操作 。 例 如 ， 对 于 Date 型 ， 可 以 使 用 “2011 TO 2017” 的 方式 进行 范围 检索 。Elasticsearch 支 持 的 基础 数据 类 型 


“ 字符 串 类 型 : string; 

“ 数值 类 型 : 字 节 (byte) 、2 字 节 (short) 、 整 型 (integer) 、 长 整 型 (long) 、 浮 点 型 (float) 和 双 精 度 型 (double) ; 
: 布尔 类 型 : boolean， 值 是 true 或 false; 

时间/ 日 期 类 型 : date， 用 于 存储 日 期 和 时 间 ; 

“二进制 类 型 : binary; 

“IP 地 址 类 型 : IP， 以 字符 串 形式 存储 IPv4 地 址 ; 


“ 特殊 数据 类 型 : token_count， 用 于 存储 索引 的 字数 信息 。 


Binary 类 型 可 以 看 做 是 Base64 编 码 形式 的 字符 串 。 例 如 ， 存 储 Base64 编 码 的 图 像 字符 串 ， 定 义 Mapping 代 码 如 下 : 


要 有 以 下 几 种 。 


#curl -XPUT 'localhost:9200/my index?pretty' -HB '‘'Content-Type: 
application/json' -d' 
{ 


"mappings": { 
"my type": { // 定 义 索 引 类 型 "my_type" 
"properties": { 
"name": { // 定 义 text 类 型 的 name 列 


"type": "text" 


nis Ff // 定 义 binary 类 型 的 img 列 
"type": "binary" 


这 里 定义 了 两 列 name 和 img， 放 入 数据 : 


Curl -XPUT 'localhost:9200/my index/my type/1?pretty' -H 'Content-Type: 
application/json' -d' 


"name": "Some binary blob", // 向 name 列 放 入 数据 
"img": "U29tZSBiaW5hcnkgYmxvYg==" // 向 img 列 放 入 数据 


Binary 类 型 默认 是 只 存储 ， 不 可 查询 。 其 可 接受 的 参数 如 下 。 
“ doc_values: 是 否 被 存储 在 磁盘 ， 以 参加 后 续 的 排序 、 聚 合 等 ， 默 认为 true; 


“ store: 是 否 存 储 到 _source， 并 能 从 _source 检 索 ， 上 默认 false。 


字符 串 类 型 可 以 按 词 建立 全 文 索引 。 我 们 可 以 选择 使 用 切 分 字符 串 所 用 的 分 词 器 analyzer 来 实现 不 同 的 切 分 效果 ， 一 般 不 同 的 语言 使 用 不 同 的 分 析 器 。 


Elasticsearch 中 内 置 了 很 多 分 词 器 (analyzers) ， 如 standard (标准 分 词 器 ) 、english (英文 分 词 ) 和 chinese (中 文 分 词 ) 。 其 中 ，standard 分 词 器 对 于 中 文 可 切 分 成 单个 汉字 ， 所 以 适用 范围 
广 ， 但 是 搜索 准确 度 低 ; english 分 词 器 对 英文 更 加 智能 ， 可 以 识别 单数 、 复 数 、 大 小 写 和 stopwords (如 the 这 个 词 ) 等 ; chinese 分 词 器 处 理 中 文 效果 较 差 。 


例如 ， 定 义 一 个 使 用 english 分 词 器 类 型 的 字段 : 


{ 


"plog": { 
"type": "string", 
"analyzer": "english" 


} 
} 


3.3 ”Mapping 参 数 


除了 Mapping 中 定义 的 索引 结构 信息 ， 还 可 以 在 settings 中 设置 作用 于 index 的 一 些 相关 配置 信息 ， 如 分 片 数 、 副 本 数 、tranlog 同 步 条 件 和 refresh 时 间 间 隔 等 。 


例如 ， 通 过 API 设 置 ， 把 refresh 时 间 设 置 为 10 秒 : 


Curl -XPUT 'localhost:9200/blog/_settings?pretty' -H 'Content-Type: 
application/json' -d' 


"index™" ; { 
"refresh interval" : "10s" // 设 置 刷 新 时 间 
} 


当 大 规模 地 创建 索引 操作 的 时 候 ， 最 好 关闭 刷新 (refresh) ， 即 不 重新 打开 索引 。 


1{"refresh interval": "-1"} 


可 以 指定 一 些 字段 的 store 属 性 为 true， 这 意味 着 可 以 单独 存储 这 些 数据 。 这 时 候 ， 如 果 你 要 求 返回 field1 (store: yes) ，Elasticsearch 会 分 辨 出 field1 已 经 被 存储 了 ， 因 此 不 会 从 _source 中 加 载 ， 而 
是 从 field1 的 存储 块 中 加 载 。 示 例如 下 : 


#curl -XPUT 'http://localhost:9200/test/_ mapping/t2?pretty' -d ' 
{ 


"_source": { // 不 存储 原始 内 容 
"enabled": false 

] 

"properties": { 


"content": { // 存 储 字符 串 类 型 的 内 容 列 


rname": { // 存 储 字符 串 类 型 的 名 字 列 


"type": "string", 
"store": "false" 


其 中 ，_source 字 段 存储 的 是 索引 的 原始 内 容 。 


当 将 一 个 列 的 store 属 性 设置 为 true 时 ， 就 会 在 Lucene 层 面 处 理 存储 。Lucene 是 倒 排 索 3|， 可 以 快速 执行 全 文 检 索 ， 并 返回 符合 检索 条 件 的 文档 ID 列表 。 除 了 全 文 索引 ，Lucene 也 提供 了 存储 字段 的 值 
的 特性 ， 以 支持 根据 文档 ID 得 到 原始 信息 。 通 常 我 们 在 Lucene 层 面 存储 的 列 值 是 跟随 search 请 求 一 起 返回 的 〈ID+field 的 值 ) 。 


有 些 情况 下 ， 显 式 地 存储 某 些 列 的 值 是 必须 的 ， 比 如 当 _source 被 关闭 的 时 候 ， 可 能 并 不 想 从 source 中 解析 来 得 到 列 的 值 (即使 这 个 过 程 是 自动 的 ) 。 请 记 住 ， 从 每 一 个 存储 的 列 中 获取 值 时 都 需要 一 
次 磁盘 MO， 如 果 想 获取 多 个 列 的 值 ， 就 需要 多 次 磁盘 /O。 但 是 如 果 要 从 _source 中 获取 多 个 列 的 值 ， 则 只 需要 一 次 磁盘 MO， 因 为 _ source 只 是 一 个 字段 ， 所 以 在 大 多 数 情况 下 ， 从 _source 中 获取 多 个 列 的 
值 是 快速 而 高 效 的 。 


3.4 动态 Mapping 


在 常规 情况 下 ， 可 以 不 用 事先 声明 Mapping 而 直接 放 入 数据 。 那 么 Elasticsearch 是 怎么 知道 字段 是 什么 类 型 呢 ? 实际 上 它 是 通过 给 定 document 的 JSON 来 判定 的 。 例 如 ， 字 符 串 类 型 的 值 是 用 引号 引 
起 来 的 ， 布 尔 类 型 的 值 是 true 或 者 false 等 ， 数 字 则 直接 给 出 。 


3.4.1 使 用 动态 Mapping 


执行 以 下 命令 : 


#curl -XPUT http://localhost:9200/test/item/1 -d '{"name":"mick", 
"description": "A Pretty cool guy."}"' 


Elasticsearch 能 根据 值 识别 出 name 和 description 字 段 的 类 型 是 string，Elasticsearch 默 认 会 创建 以 下 的 Mapping。 


mappings: { 
item: { 
properties: { //item 索 引 类 型 的 模式 定义 
description: { // 字 符 串 类 型 的 描述 列 
type: string 
} 
name: { // 字 符 串 类 型 的 名 字 列 


type: string 
} 


这 里 使 用 了 HTTP 协议 的 Put 方 法 用 来 更 新 数据 。Put 方 法 和 Get 方 法 一 样 ， 都 是 慢 等 
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Web 资 源 或 API 方 法 的 军 等 性 是 指 一 次 和 多 次 请 求 某 一 个 资源 应 该 具有 同样 的 副作用 。 窜 等 性 是 系统 接口 对 外 的 一 种 承诺 (而 不 是 实现 ) ， 承 诺 只 要 成 功 调用 接口 ， 则 外 部 多 次 调用 对 系统 的 影响 是 一 
致 的 。 朝 等 性 是 分 布 式 系统 设计 中 的 一 个 重要 概念 ， 对 超时 处 理 、 系 统 恢复 等 具有 重要 意义 。 声 明 为 朝 等 的 接口 会 认为 外 部 调用 失败 是 常态 ， 并 且 失 败 之 后 必然 会 有 重 试 。 例 如 ， 在 因 网 络 中 断 等 原因 导致 
请 求 方 未 能 收 到 请 求 返回 值 的 情况 下 ， 如 果 该 资源 具备 客 等 性 ， 请 求 方 只 需要 重新 请 求 即 可 ， 无 须 担心 重复 调用 会 产生 错误 。Post 方 法 用 于 创建 资源 ， 每 次 请 求 都 会 产生 新 的 资源 ， 因 此 不 具备 宫 等 性 。 


加 


3.4.2 ”实现 原理 


可 以 使 用 有 限 状态 自动 机 检测 数据 的 类 型 。 例 如 ， 匹 配 数字 串 的 有 限 状态 机 : 


// 多 次 匹配 0 一 9 之 间 的 数字 


Automaton num = BasicAutomata.makeCharRange ('0', '9').repeat (1)7 
num.determinize(); // 转 换 成 确定 自动 可 
num.minimize () 7 // 最 小 化 

String s = "10899"; // 输 入 串 

boolean accept = num.run(s); // 判断 有 限 状 态 机 是 否 接收 输入 字符 串 
System.out .println (accept); // 输 出 true 

判断 数字 类 型 的 完整 写法 如 下 : 


public static Automaton getNum() { 
Automaton a = BasicAutomata. makeCharRange ('0', '9'); 


Automaton b = a.repeat (1) / /至少 重复 一 次 

// 支 持 112, 345 这 样 有 和 因 节制“i 数 法 

Automaton comma = BasicAutomata.makeChar(','); 

Automaton end = BasicOperations.concatenate (comma, a.repeat (1)); 

Automaton intNum = BasicOperations .concatenate (b，end.repeat () ) 7 // 数 字 后 接 逗 号 


Automaton comma2 = BasicAutomata.makeChar('.'); 

Automaton floatNum = BasicOperations .concatenate (comma2, a. 

repeat (1)); 

Automaton intWithFloat = BasicOperations.concatenate (intNum, 
floatNum.optional () ); // 带 浮 点 数 的 写法 


Automaton Percent = BasicAutomata.makeChar ('%'); 
Automaton floatWithPercent = BasicOperations.concatenate 


(intwithFloat, 
percent .optional ()); // 带 百 分 号 的 写法 
// 合 并 百 分 号 的 写法 1 数 的 写法 
Automaton num = BasicOperations.union (floatWithPercent, floatNum); 


// 确 定 化 自动 机 
num.determinize(); 
return num; 


识别 英文 日 期 ， 例 如 “Nov.29” 这 样 写法 的 自动 机 如 下 : 


public static Automaton getDate(){ 
// 月 份 


Automaton mon = BasicAutomata.makeString("Jan. "); 
mon = mon.union (BasicAutomata.makeString ("Feb. ")); 
mon = mon.union (BasicAutomata.makeString ("Mar. ")); 
mon = mon.union (BasicAutomata.makeString ("Apr. ")); 
mon = mon.union (BasicAutomata.makeString ("Jun. ")); 
mon = mon.union (BasicAutomata.makeString ("Jul. ")); 
mon = mon.union (BasicAutomata.makeString ("Aug. ")); 
mon = mon.union (BasicAutomata.makeString ("Sept. ")); 
mon = mon.union (BasicAutomata.makeString ("Sep. ")); 
mon = mon.union (BasicAutomata.makeString ("Oct. ")); 
mon = mon.union (BasicAutomata.makeString ("Nov. ")); 
mon = mon.union (BasicAutomata.makeString ("Dec. ")); 


//1 到 2 位 数字 表示 的 日 期 


Automaton num = BasicAutomata.makeCharRange ('0', '9').repeat(1,2); 


// 日 期 后 缀 

Automaton suffix = BasicAutomata.makeString ("rd"); 
suffix = suffix.union (BasicAutomata.makeString ("th")); 
suffix suffix.union (BasicAutomata.makeString ("st")); 
suffix suffix.union (BasicAutomata.makeString ("nd")); 


// 日 期 后 缀 是 可 选 的 

Automaton date = mon.concatenate (num) .concatenate (suffix.optional ()); 
date.determinize(); 

return date; 


} 


3.5 本章 小 结 


Mapping 是 对 索引 库 中 索引 的 字段 名 称 及 其 数据 类 型 进行 定义 ， 类 似 于 数据 库 中 的 表 结 构 信息 。 但 是 Elasticsearch 的 Mapping 比 数据 库 灵活 得 多 ， 它 可 以 动态 识别 字段 ， 字 符 串 映射 为 string， 数 字 映 
射 为 Iong。 如 果 需 要 对 某 些 字段 添加 特殊 属性 如 定义 使 用 其 他 分 词 器 、 是 否 分 词 、 是 否 存储 等 ， 就 必须 手动 添加 Mapping。 


第 4 章 ”深入 源码 分 析 


本 章 首先 介绍 Elasticsearch 使 用 的 Lucene 源 码 并 进行 分 析 ， 然 后 介绍 Elasticsearch 本 身 的 源 代码 以 及 它 所 使 用 的 网 络 通 信 框 架 Netty。 


4.1 Lucene 源 码 分 析 


本 节 首先 介绍 如 何 使 用 Lucene AP1， 然 后 介绍 编译 Lucene 源 码 所 要 用 到 的 软件 工具 lvy， 最 后 分 析 Lucene 源 码 实现 过 程 。 


4.1.1 使 用 Lucene 


Lucene 完 成 基本 的 搜索 功能 只 需要 一 个 不 依赖 外 部 程序 包 的 JAR 文 件 ， 因 为 该 文件 是 一 个 核心 文件 ， 所 以 叫做 Iucene-core-Versionjar。 例 如 ，Lucene 的 7.1.0 版 本 叫做 Iucene-core-7.1.0jar， 可 以 
从 http://lucene.apache.org/core/ 网 站 上 下 载 这 个 jar 包 。 


Lucene 把 待 查询 的 文档 集合 按 词组 织 成 倒 排 索引 ， 其 中 的 索引 库 叫做 Index， 是 位 于 一 个 目录 下 的 一 些 二 进 制 文件 。 和 一 般 的 数据 库 不 一 样 ，Lucene 不 支持 定义 主键 ， 在 Lucene 中 并 不 存在 一 个 叫做 
Index 的 类 。Lucene 中 通过 IndexWriter 写 索引 ， 通 过 IndexReader 读 索引 。 


我 们 首先 介绍 如 何 创建 索引 库 ， 然 后 介绍 如 何 搜索 索引 库 。 总 的 来 说 ， 往 Lucene 中 放 的 是 文档 ， 查 询 的 是 词 ， 查 询 返 回 的 也 是 文档 。 使 用 Lucene 实 现 搜索 的 基本 流程 如 图 4-1 所 示 。 


匹配 到 的 文档 ll 


Document: < 


Url:http:/www.lietu.com 而 时 时 
title: 猎 兔 搜 索 Lucene 索 引 库 


body: 内 容 介 绍 


图 4-1 Lucene 搜 索 的 基本 流程 示意 图 


我 们 在 Eclipse 中 创建 一 个 Java 控 制 台 项 目 ， 创 建 lb 目录， 然后 把 Ilucene-core-7.1.0jar 文 件 复制 到 lib 目 录 下 。 在 项 目 属性 中 增加 对 lucene-core-7.1.0jar 文 件 的 引 


创建 索引 时 需要 指定 切 分 文本 用 的 分 析 器 ， 这 里 使 用 StandardAnalyzer 分 析 器 切 分 文本 。 因 为 SttandardAnalyzer 分 析 器 位 于 lucene-analyzers-common-7.1.0.jar 文 件 中 ， 所 以 需要 增加 对 这 个 文件 的 
。 把 lucene-analyzers-common-7.1.0.jar 文 件 复制 到 lib 目 录 下 ， 然 后 在 项 目 属性 中 增加 对 lucene-analyzers-common-7.1.0.jar 文 件 的 引用 。 


引 


新 建 一 个 测试 类 ， 实 现在 硬盘 中 创建 索引 : 


// 创 人 

Analyzer analyzer = new StandardAnalyzer(); 
// 招 索 直 存在 宇航 上 的 一 个 目录 中 

Path path = Paths.get ("d:/news"); 


Directory directory = FSDirectory.open (Path) // 存 放 新 闻 的 索引 

IndexWriterConfig config = new IndexWriterConfig (analyzer); 

IndexWriter iwriter = new IndexWriter (directory, config); //IndexWriter 写 索引 
Document doc = new Document (); 

String text = "This is the text to be indexed." A 此 引 的 文本 

doc.add (new Field("title", text, TextField. TYPE STORED) 

iwriter.addDocument (doc) ; 7/ 增 加 和 


iwriter.close(); 
directory.close () 7 


查询 串 中 可 能 包括 一 些 高 级 查询 语法 。 例 如 ， 要 找 包 含 Java 的 PDF 文件 ， 可 以 使 用 查询 串 java filetype: pdf。 所 以 用 查询 分 析 器 QueryParser 来 解析 查询 串 ， 也 就 是 根据 查询 串 生 成 Query 对 象 。 
QueryParser 这 个 类 位 于 org.apache.lucene.queryparser.classic 包 中 ， 需 要 引用 lucene-queryparser-7.1.0.jar 文 件 。 下 面 新 建 一 个 测试 类 来 查询 索引 : 


String defaultField = "title"; 
String queryString = "test"; 
Analyzer analyzer = new StandardAnalyzer(); 
QueryParser Be = new QueryParser (defaultField, analyzer); // 用 于 解析 查询 语法 
从 : 人 fi 询 对 象 
到 Darser: Parse (queryString); 


ery query 
2 人 es 人 
d:/news"); 


7 | 的 二 直人 录 中 

Directory directory = FSDirectory. open (path); 

// DirectoryReader 读 入 一 个 目录 下 的 索引 文件 
IndexReader ir = DirectoryReader.open (directory); 


// 打开 索引 库 


IndexSearcher searcher = new IndexSearcher (ir); 


// 根据 查询 词 搜索 索引 库 
TopDocs hits = searcher.search (query, 10); // 最 多 返回 10 个 结果 
System.out .Println("hits.totalHits:" + hits.totalHits); 
for (int j = 0; j < hits.scoreDocs.length; j++) { 
// 根据 文档 编号 取出 文档 对 象 
Document hitDoc = searcher.doc (hits.scoreDocs[j] .doc) 
System.out .println (hitDoc.get ("title")); // 输出 文档 


} 


4.1.2 ”Ivy 管 理 依赖 项 


可 以 使 用 git 命 令 从 github.com 得 到 Lucene 最 新 的 源码 。 


#git clone https://github.com/apache/lucene-solr.git 


Lucene 源 代码 采用 Ant 构 建 ， 使 用 Apache lvy (下 载 地 址 是 http://ant.apache.org/ivy/) 管理 JAR 文 件 之 间 的 依赖 关系 。 


lvy 特 有 的 文件 是 ivy.xml 和 一 个 |vy 设 置 文件 ，ivy.xml 文 件 中 列举 了 项 目的 所 有 依赖 项 。 例 如 ，nutch 依 赖 HttpClient: 


<dependency org="commons-httpclient" name="commons-httpclient" 
rev="3.1" conf="*->master" /> 


Ivy 依 赖 于 Ant， 所 以 需要 先 安装 Ant， 然 后 下 载 Ilvy， 再 将 它 的 JAR 文 件 复制 到 Ant 的 lib 下 ， 这 样 就 可 以 在 Ant 里 使 用 Ivy 进 行 依赖 管理 了 。 


首先 将 Apache Lucene-Solr 导 入 Eclipse 中 : 


ant compile 
ant eclpise 


然后 就 可 以 选择 菜单 Filellmport|Existing Projects Into workspace 命 令 ， 导 入 Eclipse 了 。 


4.1.3 ”源码 结构 介绍 


Lucene 源 码 分 为 核心 包 和 外 围 功 能 包 。 核 心包 实现 搜索 功能 ， 外 围 功 能 包 实 现 高 亮 显示 等 辅助 功能 。Lucene 源 码 的 核心 包 中 包括 7 个 基本 的 功能 子 包 ， 每 个 包 完 成 特定 的 功能 。 


Lucene 源 码 核心 包 中 最 基本 的 是 索引 管理 包 (org.apache.lucene.index) 和 检索 管理 包 (org.apache.lucene.search) 。 索 引 管 理 包 实 现 索引 建立 、 删 除 等 功能 ; 检索 管理 包 根据 查询 条 件 ， 检 索 得 
到 结果 。 


索引 管理 包 调用 数据 存储 管理 包 (org.apache.lucene.store) ， 主 要 包括 一 些 底层 的 MO 操作 ， 同 时 它 也 会 调用 一 些 公用 的 算法 类 (org.apache.lucene.util) 。 编 码 管理 包 
(org.apache.lucene.codecs) 用 于 方便 自 定义 索引 的 编码 和 结构 ; 文档 结构 包 (org.apache.lucene.document) 用 于 描述 索引 存储 时 的 文档 结构 管理 ， 类 似 于 关系 型 数据 库 的 表 结 构 。 


查询 分 析 器 包 (org.apache.lucene.queryParser) 实现 查询 语法 ， 支 持 关 键 词 间 的 运算 ， 如 与 、 或 、 非 等 。 语 言 分 析 器 (org.apache.lucene.analysis) 主要 用 于 对 放 入 索引 的 文档 和 查询 词 进行 切 
词 ， 支 持 中 文 扩展 此 类 。 


索引 一 般 以 文件 形式 存储 在 磁盘 上 ， 索 引 检索 需要 磁盘 /O 操 作 。 与 主 存 不 同 ， 磁 盘 /O 存 在 机 械 运动 耗费 的 特点 ， 因 此 磁盘 /O 的 时 间 消 耗 是 巨大 的 。 由 于 磁盘 顺序 读 取 的 效率 很 高 (不 需要 寻 道 时 
间 ， 只 需 很 少 的 旋转 时 间 ) ， 因 此 对 于 具有 局 部 性 的 程序 来 说 ， 预 读 可 以 提高 |/O 效 率 。 


预 读 的 长 度 一 般 为 页 (Page) 的 整 倍 数 。 页 是 计算 机 管理 存储 器 的 逻辑 块 ， 硬 件 及 操作 系统 往往 将 主 存 和 磁盘 存储 区 分 割 为 连续 的 大 小 相等 的 块 ， 每 个 存储 块 称 为 一 页 (在 许多 操作 系统 中 ， 页 的 大 小 
通常 为 4KB) ， 主 存 和 磁盘 以 页 为 单位 交换 数据 。 当 程序 要 读 取 的 数据 不 在 主 存 中 时 ， 会 触发 一 个 缺 页 异常 ， 此 时 系统 会 向 磁盘 发 出 读 盘 信号 ， 磁 盘 会 找到 数据 的 起 始 位 置 并 向 后 连续 读 取 一 页 或 几 页 数据 
载 入 内 存 中 ， 然 后 返回 异常 ， 程 序 继续 运行 。 


在 Lucene 源 代码 中 ， 为 了 和 搜索 结果 页 中 的 翻 页 区 分 ， 缓 存单 元 不 叫 Page， 而 叫做 Block。 


为 了 方便 索引 大 量 的 文档 ，Lucene 中 的 一 个 索引 分 成 了 若干 个 子 索 引 ， 这 个 子 索 引 叫 做 段 (segment) ， 段 中 包含 了 一 些 可 搜索 的 文档 。 在 给 定 的 段 中 可 以 快速 遍历 任何 给 定 索引 词 在 所 有 文档 中 出 现 
的 频率 和 位 置 。IndexWriter 收 集 在 内 存 中 的 多 个 文档 ， 然 后 在 某 个 时 间 点 把 这 些 文档 写 入 一 个 新 的 段 ， 写 入 点 可 以 通过 Lucene 内 部 的 配置 类 或 者 外 部 程序 控制 。 然 后 这 些 文档 组 成 的 段 会 保持 不 动 ， 直 到 
Lucene 把 它 合并 入 大 的 段 中 。MergePolicy 控 制 Lucene 如 何 合并 段 ， 如 图 4-2 所 示 。 


图 4-2 索引 文件 的 逻辑 视 


SegmentCoreReader 关 联 整个 段 中 的 所 有 文件 ， 通 过 (编码 器 ) 得 到 各 个 文件 的 处 理 对 象 。 


Codec (编译 码 器 ) 


Docl 


Doc1l 


Doc2 


Doc3 


Doc2 


Doc3 


事实 上 就 是 由 多 组 的 format (格式 ) 构成 ， 一 个 Codec 总 共 包 含 8 个 format， 分别 是 PostingsFormat、DocValuesFormat、StoredFieldsFormat、TermVectorsFormat、 


FieldlnfosFormat、SegmentlnfoFormat、NormsFormat 和 LiveDocsFormat。 例 如 ，StoredFields Format 用 来 处 理 存储 数据 的 列 ，TermVectorsFormat 用 来 处 理 词 向 量 。 


Codec 直 接 传递 给 SegmentReader ( 段 读 


PerFieldCodec 


来 支持 不 同 的 列 使 


不 同 


和 其 他 的 Codec 写 入 到 压缩 的 二 进 向 


为 了 方便 测试 查询 ,我 们 使 


createDocument () 方法 索引 测试 内 容 。 


private static Document createDocument (String id, String content) { 
Document doc = new Document (); 

doc.agdd (new Field("id", id, StringField.TYPE STORED)); 

// 索 引 分 词 的 文本 列 

doc.add (new Field("contents", content, TextField.TYPE STORED) ) 7 
return doc; 区 


} 


使 


SimpleTextCodec 建 立 索引 : 


Analyzer analyzer = new StandardAnalyzer(); 
IndexWriterConfig iwc = new IndexWriterConfig (analyzer); 


// 设 置 编码 器 为 SimpleTextCodec 
// 索 引 不 使 用 复合 文件 格式 
// 索 引 存放 路 径 

// 打 开 这 个 路 径 


iwc.setCodec (new SimpleTextCodec () ) 7 
iwc.setUseCompoundFile (false); 

Path Path = Paths.get ("F:/lucene/index"); 
Directory directory = FSDirectory.open (path); 


IndexWriter writer = new IndexWriter (directory, iwc); 
// 索引 一 些 文档 

writer.addDocument (CreateDocument ("1"™, 
writer.addDocument (createDocument ("2", 
writer.addDocument (createDocument ("3", 
writer.close(); 


要 产生 5 个 文件 : 0.fld、_0.len、_0.inf、_0.pst 和 和 _0.si。 
“ fld 文 件 保存 存储 到 索引 的 原 值 ; 
“pst 文件 保存 倒 排 索引 ; 


“inf 文 件 保存 文件 是 如 何 索 引 的 。 


取 器 ) 来 编码 索引 格式 ; 提供 枚 举 类 的 实现 给 SegmentReader; 提供 索引 文件 的 写 入 器 给 IndexW riter。 


的 读 写 格式 。org.apache.lucene.codecs.perfield 包 中 有 可 以 委托 给 每 个 字段 不 同 格式 的 Posting 格 式 。 


文件 不 一 样 ，SimpleTextCodec 把 所 有 的 投递 列表 写 到 可 读 的 文本 文件 中 ，] 


其 适合 用 来 学 习 ， 不 建议 在 生产 环境 中 使 


。 代 码 如 下 : 


// 创 建文 档 
// 索 引 不 分 词 的 字符 串 列 


// 构 建 写 索引 的 IndexWriter 


存储 原 值 的 _0.fld 文 件 内 容 如 下 : 


gdoc 0 
numfields 2 
field 0 
name id 
type string 
value 1 
field 1 
name contents 
type string 
value 青菜 鸡肉 
B06.71 
numfields 2 
field 0 
name id 
type string 
value 2 
field 1 
name contents 
type string 
value 老 胸 粉丝 汤 
doc 2 
numfields 2 
field 0 
name id 
type string 
value 3 
field 1 
name contents 
type strinm 
value 辣子 鸡 丁 
END 


// 文 档 0 
// 列 的 数量 
// 第 0 列 


// 第 1 列 
// 列 名 称 
// 列 类 型 
// 值 
// 文 档 1 
// 列 的 数量 
// 第 0 列 
// 列 名 称 
// 列 类 型 
// 值 
// 第 1 列 
// 列 名 称 
// 列 类 型 


// 列 名 称 
// 列 类 型 
// 值 
// 第 1 列 


倒 排 索引 在 _0.pst 文 件 中 ， 先 保存 某 一 列 的 倒 排 索引 ， 然 后 再 保存 另外 一 列 的 倒 排 索引 。 例 如 ， 像 这 样 写 入 contents 列 和 id 列 的 倒 排 索 引 : 


field contents 
term 丁 
goc 2 
freq 1 
pos 3 
term 丝 
goc1 
freq 1 
pos 3 
term 子 
goc 2 
freq 1 
pos 1 
term 汤 
goc1 
freq 1 
pos 4 
term 粉 
gdoc1 
freq 1 
pos 2 
term 老 
goc1 
freq 1 
pos 0 
term 肉 
gdoc 0 
freq 1 
pos 3 
term 菜 
gdoc 0 
freq 1 
pos 1 
term 辣 
goc 2 
freq 1 
pos 0 
term 青 
gdoc 0 
freq 1 
pos 0 
term 鸡 
gdoc 0 
freq 1 
pos 2 
eS 
freq 1 
pos 2 
term 胸 
gdoc1 
freq 1 
pos 1 
field id 
term 1 
gdoc 0 
term 2 
gdoc1 
term 3 
aoc 2 
END 


//contents 列 的 倒 排 索引 
// 词 
// 文 档 编号 
// 词 在 文档 中 出 现 的 次 数 
// 词 出 现 的 位 置 


/id 列 的 倒 排 索引 


_0.inf 文 件 存储 索引 的 元 信息 内 容 如 下 : 


number of fields 2 
name id 
number 0 
indexed true 
index options DOCS_ONLY 
term vectors false 
payloads false 
norms false 
norms type false 
goc values false 
attributes 0 
name contents 
number 1 
indexed true 


// 列 数量 
//ig 列 的 说 明 
// 列 编号 
// 察 引 

// 索 引 选 项 

// 词 向 量 

// 载 荷 

// 归 一 化 
// 归 一 化 类 型 
// 文 档 值 


// 属 性 
// 内 容 列 的 说 明 


index options DOCS AND FREQS AND POSITIONS 


term vectors false 
payloads false 
norms true 

norms type NUMERIC 
doc values false 
attributes 0 


fld 文 件 包含 一 个 叫做 checksum 的 二 进 制 序列 ， 


来 检验 文件 的 完整 性 ， 该 二 进 制 序列 采 


CRC32 算 法 生成 。 


4.1.4 并 发 控制 


读 取 索引 时 ， 也 就 是 引 


计数 ， 当 没有 任何 应 


索引 库 为 了 实现 读 写 并 发 控制 ， 需 要 对 正在 读 取 索引 的 应 用 进行 引 
一 的 序列 号 。 例 如 ， 最 容易 想到 的 一 个 实现 方法 是 : 


public class UnsafeSequence { 
Private int Value 
/xx 返回 一 个 唯一 的 值 */ 
public int getNext() { 
return valuet+; 


} 


如 果 一 个 线程 调用 这 个 方法 ， 则 不 会 有 问题 。 但 如 果 多 个 线程 调用 这 个 方法 ， 则 会 出 现 问题 。 下 面 来 测试 两 个 线程 。 
public class TestUnsafeSequence extends Thread { 

static UnsafeSequence unsafeSequence = new UnsafeSequence(); / /序列 号 

static HashSet<Integer> seqSet = new HashSet<Integer>(); // 已 经 生成 的 


Public void run() { 
while (true){ 
int id = 的 证 getNext () 7 
if(seqSet.contains (id) ) 
System.out.Println( 人 知 列 号 重复 错误 "+id); 


} 
seqSet .add (id); 


public static void main (String args[]) { 
(new TestUnsafeSequence () ) .start () 7 
(new TestUnsafeSequence () ) .start () 7 


} 
} 


输出 结果 如 下 : 


计数 为 0 后 ， 可 以 提交 修改 。 引 


计数 需 


保持 连续 性 ， 


这 时 候 需要 生成 一 个 全 


生成 器 


6503 
7582 
7849 
7971 
12599 
13175 


序列 号 重复 错误 : 
序列 号 重复 错误 : 
序列 号 重复 错误 : 
序列 号 重复 错误 : 
序列 号 重复 错误 : 
序列 号 重复 错误 : 


加 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/OEBPS/Text/... 


为 访问 的 是 同一 个 value 值 ， 先 取得 这 个 值 ， 然 后 加 1。 


返回 值 重复 是 


这 些 操作 发 生 在 多 个 线程 中 ， 这 些 线程 可 能 交 蔡 占有 运行 时 间 ， 所 以 两 个 线程 很 可 能 
执行 过 程 。 


3 所 示 为 运气 不 好 的 一 次 


图 4-3 运气 不 好 的 一 次 执行 过 程 
判断 value 的 值 叫 做 竞争 条 件 。 避 免 竞 争 条 件 有 以 下 3 个 方法 。 
“ 无 共享 : 如 果 能 够 互 不 相干 地 使 用 ， 则 没 问题 。 例 如 ， 数 据 按 类 别 交 给 不 同 的 线程 去 处 理 。 


“ 使 用 原子 操作 : 所 有 对 value 值 的 操作 一 次 性 完成 ， 中 间 不 可 中 断 。 


“ 使 用 锁 : 对 需要 同步 的 整个 方法 加 锁 。 


增 操作 value++ 看 起 来 像 是 一 个 单一 的 操作 ， 但 是 导 
同时 读 取 这 个 值 ， 而 且 这 两 个 线程 都 得 到 了 相同 的 值 ， 并 都 增加 了 1， 结 果 就 是 不 同 的 线程 返回 了 相同 的 序列 数 。 如 


实 上 分 为 3 个 独立 的 执行 操作 : 


读 取 这 个 值 ， 使 之 加 1， 


再 写 入 新 值 。 


可 以 


这 个 类 位 了 


Atomiclnteger 中 的 incrementAndGet () 方法 是 原子 性 的 ， 于 java.util.concurrent.atomic 包 中 ， 


public class SafeSequence{ 
Private final AtomicInteger Value = new AtomicInteger (0); 


public int getNext() { 
return value.incrementAndGet (); 
} 
} 


// 原 子 性 的 操作 


它 实现 序列 号 生成 器 。 


一 ”> Value=l1 


Value=1] 


因为 


网 
从 


我 们 可 以 
所 示 的 那 种 不 应 出 现 的 交互 。 


同样 的 方法 测试 SafeSequence 中 的 序列 号 生成 器 。 为 了 避免 测试 中 重复 生成 序列 号 的 情况 ， 可 以 把 getNext 声 明 为 synchronized 类 型 的 方法 来 修正 UnsafeSequence， 这 样 就 能 避免 


图 4-3 


public class Sequence { 
Private int value; 


public synchronized int getNext() { 
return valuet+; 
’ 
} 


synchronized getNext () 人 可 以 防止 多 个 线程 同时 访问 这 个 对 象 的 getNext 方 法 。 同 时 ， 如 果 一 个 对 象 有 多 个 synchronized () 方法 ， 只 要 一 个 线程 访问 了 其 中 的 一 个 synchronized () 方法 ， 那 么 


其 他 线程 就 不 能 同时 访问 这 个 对 象 中 的 任何 一 个 synchronized () 方法 ， 也 就 是 说 synchronized () 方法 是 对 象 级 的 锁 。 这 时 ， 不 同 的 对 象 实例 的 synchronized () 方法 是 不 相干 扰 的 ， 也 就 是 说 ， 其 
线程 照样 可 以 同时 访问 相同 类 的 另 一 个 对 象 实例 中 的 synchronized () 方法 。 


Il 
3 


除了 对 象 级 的 锁 ， 还 有 类 级 别 的 锁 。 例 如 : 


public class Sequence { 
private static int value; 


private static int getNext() { 
synchronized (Sequence.class) { 
return valuett+; 


这 里 的 synchronized () 方法 锁 的 是 一 个 类 ，Sequence.class 本 身 是 Sequence 类 的 一 个 静态 属性 ， 也 是 一 个 对 象 。 锁 Sequence.class 的 意思 就 是 对 整个 类 加 锁 ， 也 就 是 说 无 论 创建 了 多 少 个 Sequence 
类 的 对 象 ， 这 些 对 象 都 共享 一 个 相同 的 锁 标记 。 


上 面 的 例子 只 锁 了 一 个 变量 ， 对 于 每 个 不 止 涉及 一 个 变量 的 不 变 式 ， 不 变 式 中 所 有 的 变量 必须 都 由 一 个 锁 保护 。 


对 于 高 并 发 应 用 ， 最 好 使 用 ConcurrentHashMap， 而 不 是 Hashtable。Hashtable 虽 然 是 同步 的 ， 但 是 实际 上 往往 需要 “检查 然后 放 入 ”这 样 的 原子 操作 ， 例 如 下 面 的 代码 : 


HashMap<String, Integer> myMap = new HashMap<String, Integer> () 7 
Collections .synchronizedqMap (myMap); 
synchronized (myMap) { 
if (!myMap.containsKey ("tomato")) // 检 查 不 存在 
myMap.put ("tomato", 1); // 放 入 
} 


所 以 在 一 般 情况 下 不 推荐 使 用 Hashtable。 当 执行 任务 需要 较 长 时 间 时 ， 不 应 该 使 用 锁 ， 例 如 MO 操作 等 。 


访问 主板 上 的 内 存 速度 远 不 及 CPU 处 理 速度 。 为 提高 机 器 整体 性 能 ， 在 CPU 内 部 引入 高 速 缓存 ， 加 速 对 内 存 的 访问 。 有 的 CPU 内 部 共有 三 级 缓存 ， 分 别 是 L1 (一 级 缓存 ) 和 L2 (二 级 缓存 ) 及 L3 (三 级 
缓存 ) 。 
同一 个 花生 植株 可 以 结 多 个 花生 果 ， 一 个 花生 果 中 有 多 粒 花生 。 类 似 的， 一 台 机 器 可 以 有 多 个 CPU， 一 个 CPU 可 以 有 多 个 核心 。 在 x86 和 x64 中 ， 处 理 器 设计 成 同步 不 同 处 理 器 中 的 高 速 缓存 ， 所 以 我 们 
可 能 看 不 出 问题 。 但 IA64 处 理 器 利用 了 这 个 特点 : 每 个 处 理 器 都 有 其 自己 的 高 速 缓存 ， 各 处 理 器 中 的 缓存 数据 不 严格 同步 。 所 以 ， 不 同 的 线程 执行 可 能 在 缓存 中 放 进 不 同 的 值 。 


因此 ， 在 第 一 次 运行 时 ，CPU 访 问 内 存 地 址 并 把 值 存储 在 缓存 中 ， 当 第 二 次 访问 变量 时 就 从 缓存 中 返回 ， 所 以 所 有 后 续 读 取 都 从 缓存 读 取 。 写 操作 也 是 同样 的 ， 当 变量 改变 时 ， 写 入 值 首 先 存储 在 缓存 
中 ， 随 后 的 读 / 写 也 是 从 缓存 中 读 / 写 。 然 而 ， 当 写 入 值 最 终 被 刷新 到 内 存 中 时 ， 则 清除 缓存 或 用 其 他 数据 填充 缓存 。CPU 比 较 “聪明 ”地 做 了 一 件 事 : 当 CPU 在 缓存 中 获取 变量 的 值 ( 几 个 字 节 ) 时 ， 同 时 
也 获取 了 该 值 附近 的 一 些 值 ， 因 为 下 一 个 要 使 用 的 变量 可 能 就 在 它 附近 。 具 体 的 缓存 值 获取 过 程 如 图 4-4 至 图 4-7 所 示 。 


CPE RAM 


y=23 


图 4-4 第 一 次 获取 


Ea 


日 
已) I 


GE 


y=40 


图 4-7 未 来 的 菜 个 时 候 


图 4-8 所 示 。 
是 说 一 个 线程 写 了 一 个 变量 后 ， 并 不 能 保证 能 被 另外 一 个 线程 看 到 。 


因此 这 就 7 


己 的 缓存 ， 这 最 终 会 转移 到 RAM ， 其 他 CPU 可 能 已 经 从 RAM 中 读 过 这 个 CPU 尚未 更 新 的 值 ， 如 

因为 缓存 ， 多 个 CPU 访 问 同一 个 变量 时 导致 能 见 度 降低 。 在 一 个 线程 中 发 生 的 内 存 写 有 可 能 被 另外 一 个 变量 看 到 。 也 计 
生 了 明显 的 并 发 问题 。 这 样 当 多 个 线程 同时 与 某 个 对 象 交互 时 ， 就 必须 要 让 线程 及 时 地 得 到 共享 成 员 变量 的 变化 ， 这 是 产生 volatile 关 键 字 的 原 
明 一 个 volatile 变 量 , 会 总 是 从 内 存 中 读 取 它 ， 并 把 它 的 值 立即 写 入 内 存 中 。 但 是 必须 指出 的 是 ， 所 有 的 锁 操 作 都 会 同步 缓存 。 


一 个 CPU 可 以 写 它 


HH 


因此 ， 在 锁 操作 内 部 并 不 需要 volatile 关 键 字 。 


接 与 共享 成 员 变 量 交互 。 


如 果 你 声 
总 之 ， 对 于 volatile 关 键 字 修饰 的 成 员 变 量 ， 不 能 保存 它 的 私有 备份 ， 而 应 


例如 ， 下 面 是 一 个 停止 请 求 的 方法 ， 人 允许 其 他 线程 通知 这 个 线程 结束 任务 。 


public class StoppableTask extends Thread { 
private volatile boolean pleaseStop; 


public void run() { 
while (!pleaseStop) { 
// 做 一 些 事情 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/0EBPS/Text/... 


} 

public void tellMeToStop() { // 其 他 线程 调用 这 个 方法 让 这 个 线程 停止 
pleaseStop = true; 

} 


ER CPU2 时 间 线 


从 内 存 中 读 x=0 


并 且 存 到 缓存 从 内 存 中 读 x=0 并 


且 更 新 目 己 的 缓存 


更 新 x=x+1 

并 且 写 入 缓存 
因此 x=1 

其 他 CPU 是 10 
内 存 中 是 0 


更 新 内 存 ， 现 
在 内 存 中 x=10 


更 新 内 存 ， 现 在 
内 存 中 x=1 


图 4-8 两 个 CPU 访问 同一 个 变量 


如 果 该 变量 没有 声明 为 volatile (并 且 也 没有 其 他 同步 措施 ) ， 那 么 这 是 合法 的 ， 运 行 循 环 的 线程 在 循环 开始 时 缓存 变量 pleaseStop 的 值 ， 并 且 不 再 
volatile 修 饰 pleaseStop 变 量 ， 调 用 停止 任务 的 方法 。 代 码 如 下 : 


看 它 。 如 果 不 希望 这 是 一 个 无 限 循环 ， 就 需要 使 


public static void main (String[] args) throws InterruptedException { 
StoppableTask task = new StoppableTask(); 
task.start (); 
Thread. sleep (3000); //3 秒 后 停止 任务 
task.tellMeToStop (); 
} 


例如 ， 如 果 想 让 宾馆 的 服务 员 打扫 房间 ， 客 人 可 以 在 房 门 外 设置 一 个 请 打扫 的 标志 ; 如 果 不 希望 打扫 房间 ， 也 可 以 在 
这 里 的 代码 中 使 用 volatile 修 饰 的 pleasestop 变 量 作为 交流 信息 的 标志 。 


房 门 外 设 置 一 个 请 勿 打扰 的 标志 。 服 务 员 和 客人 通过 一 个 位 置 的 标志 来 交流 信息 。 


ready 是 一 个 volatile 布 尔 变量 ， 初 始 值 是 false， 而 answer 是 一 个 非 volatile 的 整数 变量 ， 初 始 值 是 0。 


第 一 个 线程 写 入 ready， 这 是 通信 的 发 送 方 ; 第 二 个 线程 读 取 ready， 并 打印 出 它 看 到 的 第 一 个 线程 的 值 ， 


内 存 内 容 ， 在 线程 2 读 出 ready 的 值 为 true 之 后 ， 必 须 让 线程 2 可 以 看 到 所 有 的 内 存 内 容 。 


answer=42 


图 4-9 


两 个 线程 的 梯形 图 


if(ready) 


因此 它 是 一 个 接收 器 。 在 这 两 个 线程 通信 有 时， 线程 1 在 设置 ready 为 true 之 前 ， 可 以 看 到 所 有 的 


每 次 对 一 个 volatile 变 量 的 写 入 就 是 一 个 同步 点 ， 每 个 同步 点 都 会 有 潜在 的 性 能 损失 。 不 把 多 个 变量 都 声明 成 为 volatile 变 量 ， 是 为 了 减少 性 能 损失 。 


为 了 提高 执行 速度 ，CPU 中 指令 的 执行 并 不 一 定 严格 按照 顺序 来 执行 ， 如 果 没有 相关 性 的 指令 ， 


编译 器 优化 代码 常 


由 编译 器 优化 或 者 硬件 


的 方法 有 : 将 内 存 变量 缓存 到 寄存 器 中 ; 调整 指令 顺序 充分 利 
新 排序 引起 的 问题 解决 办 法 是 ， 从 硬件 (或 者 其 他 处 理 器 ) 的 角度 看 ， 对 必须 以 特定 顺序 执行 的 操作 设置 内 存 


可 以 乱 序 执行 ， 以 充分 利 


CPU 的 指令 流水 线 提高 执行 速度 。 这 是 硬件 级 别 的 优化 。 


CPU 指 令 流 水 线 ， 常 见 的 是 重新 排序 读 写 指令 。 


对 常规 内 存 进行 优化 的 时 候 ， 这 些 优 化 是 透明 的 ， 而 且 效率 很 好 。 


障 (memory barrier) 。 


volatile int [] 
arr = arr; 
int x = arr[0]; 


arr[0] = 1; 


arr 是 对 数组 的 volatile 类 型 引 


常 访问 这 个 arr[0] 变 量 。 


4.2 


arr = new int[SIZE]; 


启动 搜索 服务 


， 不 是 对 volatile 元 素 组 成 的 数组 引 上 


org.elasticsearch.bootstrap 包 中 包含 了 启动 相关 的 类 。Elasticsearch 服 务 从 org.elasticsearch.bootstrap.Elasticsearch 类 开始 运行 。 


Elasticsearch 使 


GNU getopt long () 


Opt Simple (下 载 地 


。JOpt Simple 不 使 有 


下 面 用 一 个 虚拟 应 


程序 说 明 JOpt Simple 解 析 器 的 
没有 与 该 标志 关联 的 值 ， 表 示 为 -v 或 --verbose; 必需 的 参数 后 画 


因此 写 入 arr[0] 不 是 对 volatile 类 型 的 写 入 。 如 果 写 入 arr[0]， 则 不 会 得 到 像 写 入 volatile 类 型 一 样 的 顺序 ， 并 


由 是 http://pholser.github.io/jopt-simple/) 解析 命令 行 参数 。JOpt Simple 是 一 个 用 于 Java 程 序 中 测试 驱动 
注解 ， 支 持 流畅 接口 。 


的 简单 命 


法 。 程 序 中 有 两 个 参数 ， 一 个 是 可 选 的 参数 ， 
应 该 跟 一 个 值 ， 即 文件 的 路 径 和 名 称 ， 其 标志 是 -f 或 者 --file。 实 现代 码 如 下 : 


final OptionParser optionParser = new OPtionParser () 


// 文 件 参数 


来 指示 详细 输出 已 启 


多 个 CPU 都 不 能 正 


令 行 解析 器 ， 支 持 POSIX getopt () 和 


3 一 个 是 必需 的 参数 ， 


于 指定 虚拟 应 


程序 要 处 理 的 文件 。 可 选 参数 


final String[] fileOptions = { 
nfn 


7 
nfile" 
] 7 


// 带 参数 ， 而 且 是 必需 
optionParser.acceptsAll (ARrrays .asList (fileOptions), 
"Path and name of file.") .withRequiredaArg() .required(); 


// 详 细 输 出 参数 

final String[] verboseOptions = { 
my 
"verbose" 


a 


optionParser.acceptsAll (Arrays.asList (verboseOptions), 
"Verbose logging."); 


// 帮 助 参数 
final String[] helpOptions = { 
pn 


’ 
"help" 
}; 


optionParser.acceptsAll (Arrays.asList (helpOptions), 
"Display help/usage information") .forHelp () 7 


首先 实例 化 一 个 OptionParser， 然 后 为 每 个 可 能 的 命令 行 选项 调用 一 个 重 载 的 acceptAll () 方法 。acceptAll () 方法 允许 多 个 标志 /选项 名 称 与 单个 选项 相关 联 。 对 选项 同义词 的 这 种 支持 允许 使 用 -f 
和 --file 作 为 相同 的 选项 。 


上 面 的 代码 演示 了 可 以 使 用 .required () 方法 调用 来 指定 一 个 命令 行 选项 是 必须 的 。 在 这 种 情况 下 ，file 是 必需 的 。 如 果 预 期 将 参数 放置 在 与 选项 /标志 关联 的 命令 行 上 ， 则 可 以 使 
withRequiredArg () 方法 。 


上 面 代码 段 中 的 help 选 项 利用 forHelp () 方法 告诉 JOpt Simple 解 析 器 : 如 果 在 forHelp () 相关 的 选项 处 于 选中 状态 时 ， 必 需 的 选项 不 在 命令 行 中 则 不 会 引发 异常 。 在 这 个 例子 中 ， 这 样 可 以 确保 用 
户 使 用 -h 或 --help 运 行 应 用 程序 ， 而 不 需要 其 他 任何 必要 的 选项 ， 并 避免 引发 异常 。 


从 OptionParser.accepts (String) 方法 返回 OptionSpecBuilder 的 实例 。 例 如 返回 版 本 选项 : 


OptionSpecBuilder versionOption = parser.acceptsAll (Arrays.asList ("V"， 
"version"), 
"Prints elasticsearch version information and exits"); 


4.3 ”Guice 框 架 


Elasticsearch 在 启动 时 ， 基 于 其 配置 文件 和 运行 时 的 环境 来 搜集 不 同 的 模块 ， 并 创建 一 个 Injector 对 象 。 简 单 来 说 ，Injector 就 是 一 个 不 需要 提供 构建 参数 就 可 以 构建 类 的 实例 对 象 。Injector 将 会 使 用 
其 配置 完 的 模块 来 定位 所 有 请 求 的 依赖 ， 并 以 一 种 拓扑 顺序 为 开发 者 建 出 这 些 实例 。 这 样 不 仅 为 开发 者 节约 了 大 量 时 间 ， 而 且 可 以 帮助 开发 者 创建 出 一 个 可 复合 的 模块 系统 。 


Elasticsearch 服 务 启动 时 通过 ModuleBuilder 类 进行 模块 注入 。ModuleBuilder 是 Guice 的 封装 。Guice 是 Google 公 司 开发 的 一 个 开源 依赖 注入 框架 (IOC) 。Elasticsearch 源 代码 中 集成 了 Guice。 相 
关 代码 位 于 org.elasticsearch.common.inject 包 中 。Guice 会 扫描 inject 注 释 ， 并 对 方法 中 出 现 的 参数 实例 寻找 对 应 注册 的 实例 进行 初始 化 。 


Elasticsearch 中 的 模块 是 在 Guice 模 块 部 件 中 完成 配置 信息 并 绑 定 Elasticsearch 各 类 接口 的 特定 实现 。 


Guite 的 Provider 类 可 以 返回 特定 类 型 的 对 象 。Elasticsearch 通 过 Provider 类 创建 和 返回 Analyzer 对 象 。 


下 面 是 使 用 Provider 的 例子 。 首 先 定义 一 个 接 | 


public interface MyInterface { 
String foobar () 7 


然后 是 接口 的 实现 类 MyClass， 如 下 : 


public class MyClass implements MyInterface { 
private String providerName; // 记 录 提 供 者 的 名 字 


public MyClass (String providerName) { 
this.providerName = providerName; 


} 


QOverride 
public String foobar() { 
return String.format ("Hi! I am [%s], " + "and I was instantiated 


using [%s]", getClass() .getSimpleName (), providerName); // 返 回调 用 信息 
} 
Provider 的 子 类 MylnterfaceProvider 提 供 MyClass 的 实例 (instance) 如 下 : 
import com.google.inject.Provider; 
public class MyInterfaceProvider implements Provider<MyClass> { // 实 现 提 供 者 接口 
QOverride 
public MyClass get() { 
return new MyClass (getClass () .getSimpleName ()); // 用 类 名 实例 化 MyClass 


Module 的 子 类 建立 绑 定 ， 代 码 如 下 : 


import com.google.inject.AbstractModule; 
public class MyModule extends AbstractModule { 


QOverride 
protected void configure() { 
// 绑 定 MyInterface 接 口 到 Provider 子 类 
bind (MyInterface.class) .toProvider (MyInterfaceProvider.class); 


} 


使 用 Guice 得 到 Mylnterface 的 对 象 : 


import com.google.inject.Guice; 
import com.google.inject.Injector; 


public class ProviderSample { 
public static void main (String[] args) { 
Injector injector = Guice.createInjector (new MyModule () ) 7 // 创 建 注入 器 
MyInterface myObject = injector.getInstance (MyInterface.class); 
// 通 过 注入 器 得 到 实例 


System.out .println (myObject. foobar () ); // 输 出 调用 信息 


运行 ProviderSample 输 出 : 


Hi! I am [MyClass], and I was instantiated using [MyInterfaceProvider] 


4.4 日 期 和 时 间 库 一 一 Joda-Time 


Elasticsearch 内 部 使 用 Joda-Time 库 (下 载 地 址 是 http://www.joda.org/joda-time/) 处 理 日 期 和 时 间 。Joda-Time 库 中 提供 了 date 和 time 类 的 替换 。 库 使 用 Joda-Time 库 解析 日 期 字符 串 的 代码 如 
"Rs 


DateTimeFormatterBuilder builder = new DateTimeFormatterBuilder (); // 日 期 格式 构建 器 
DateTimeParser[] parsers = new DateTimeParser[3]; // 日 期 字符 串 解析 器 数组 
parsers[0] = DateTimeFormat.forPattern ("MM/dd/yyyy") //"MM/d9/yyyy" 格 式 的 解析 器 
.withZone (DateTimeZone.UTC) .getParser () 7 
parsers[1] = DateTimeFormat.forPattern ("MM-dd-yyyy") //"MM-dd-yyyy" 格 式 的 解析 器 
.withZone (DateTimeZone.UTC) .getParser () 7 
parsers[2] = DateTimeFormat.forPattern ("YYYY-MM-dd HH:mm:ss") //"yyyy-MM-dd HH:mm:ss" 格 式 的 解析 器 


.withZone (DateTimeZone.UTC) .getParser () 7 


// 使 用 解析 器 数组 构建 日 期 格式 构建 器 
builder.append( 
DateTimeFormat .forPattern ("MM/dd/yyyy") 


.withZone (DateTimeZone.UTC) .getPrinter(), parsers); 
DateTimeFormatter formatter = builder.toFormatter () 7 // 得 到 日 期 格式 化 对 象 
long millis = formatter.parseMillis ("2009-11-15 14:12:12"); // 由 日 期 字符 串 解析 出 微 秒 


System.out .Println (millis); 


Elasticsearch 中 的 StrictISODateTimeFormat 类 从 Joda 中 复制 过 来 的 ， 该 类 在 Joda-Time 中 被 命名 为 ISODatetimeFormat， 但 是 其 在 几 个 方法 中 被 修改 很 多 ， 如 日 期 年 份 至 少 为 n 位 数 ; 像 “5” 这 样 
的 年 份 是 无 效 的 ,必须 是 “0005”。 


例如 ， 创 建 时 间 对 象 的 代码 如 下 : 


MutableDateTime dateTime = new MutableDateTime (3000, 12, 31, 23, 59, 59, 
999， 

DateTimeZone.UTC); 
System.out .Println (dateTime); 


4.5 ”Transport 模 块 


Transport 模 块 用 于 Elasticsearch 集 群 内 节点 之 间 的 内 部 通信 ， 从 一 个 节点 到 另 一 个 节点 的 调用 都 通过 Transport 模 块 来 完成 。 


网 络 线程 中 不 能 调用 阻塞 代码 ， 所 以 需要 把 网 络 线程 和 非 网 络 线程 区 分 开 。 枚 举 类 型 Transports 中 的 静态 方法 isTransportThread () 根据 线程 的 名 字 判 断 一 个 线程 是 否 为 网 络 线程 。 


Elasticsearch 集 群 内 默认 节点 的 连接 数量 是 13 个 ， 如 下 : 


ConnectionProfile profile = 
TcpTransport .buildDefaultConnectionProfile (Settings .EMPTY); 
assertEquals (13, profile.getNumConnections()); 


// 节 点 之 间 的 ping 连 接 个 数 为 1 个 

assertEquals (1, profile.getNumConnectionsPerType 
(TransportRequestOptions.Type.PING) ); 

// 典 型 的 搜索 和 单 doc 索 引 ， 默 认 个 数 为 6 个 
assertEquals (6, profile.getNumConnectionsPerType 
(TransportRequestOptions.Type.REG)); 

// 集 群 状态 的 发 送 ， 默 认 个 数 为 1 个 ; 

assertEquals (1, profile.getNumConnectionsPerType 
(TransportRequestOptions.Type.STATE) ) 7 

// 做 数据 恢复 recovery， 默 认 个 数 为 2 个 

assertEquals (2, profile.getNumConnectionsPerType 
(TransportRequestOptions.Type.RECOVERY) ); 

// 用 于 批量 请 求 ， 默 认 个 数 为 3 个 ; 

assertEquals (3, profile.getNumConnectionsPerType (TransportRequestOptions.Type.BULK)); 


在 上 面 代 码 中 ， 连 接 配 置 ConnectionProfile 中 描述 了 为 每 个 可 用 请 求 类 型 建立 了 多 少 到 特定 节点 的 连接 。 


4.6 线程 池 


每 个 Elasticsearch 节 点 内 部 都 维护 着 多 个 线程 池 ， 如 index、search、warmer 和 bulk 等 ， 开 发 者 可 以 修改 线程 池 的 类 型 和 大 小 。 


可 以 通过 如 下 命令 查看 线程 池 情 况 。 


# curl http://localhost:9200/_nodes/stats?pretty 


例如 ， 返 回 的 搜索 线程 池 相关 信息 如 下 : 


"search" : 


"completed: 


其 中 ， 最 需要 关注 的 是 rejected。 当 某 个 线程 池 active 的 值 等 于 threads 时 ， 表 示 所 有 线程 都 在 忙 ， 那 么 后 续 新 的 请 求 就 会 进入 队列 中 ， 一 旦 队列 大 小 超出 限制 ， 那 么 Elasticsearch 进 程 将 拒绝 请 求 ， 相 
应 的 拒绝 次 数 就 会 累加 到 rejected 中 。 


4.7 ”模块 


Elasticsearch 使 用 模块 提供 分 布 式 搜索 系统 所 需要 的 实例 和 功能 ，AnalysisModule 是 使 用 Elasticsearch 的 
Token 过 滤器 。 


发 者 最 关心 的 模块 之 一 ， 这 个 模块 负责 提供 索引 和 搜索 时 分 析 器 、 分 词 器 、 字 符 过 滤器 和 


Elasticsearch 内 置 的 模块 介绍 如 下 。 

“ transport-netty4: 用 于 网 络 通信 ; 

"aggs-matrix-stats: 矩阵 聚合 在 多 个 字段 上 工作 ， 并 产生 一 个 矩阵 作为 输出 ; 
* analysis-common: 包含 一 些 常用 的 TokenFilter; 

“ ingest-common: 实现 摄取 的 公用 类 ; 
“ lang-expression: 实现 表达 式 脚 本 引擎 ; 

:lang-mustache: Mustache 脚 本 引擎 ; 
“ lang-painless: painless 脚 本 引擎 ; 


“ parent-join: 父 连 接 ; 


“ percolator: 实现 注册 查询 功能 ; 
' teindex: 重新 索引 Elasticsearch 数 据 ; 


“ tebository-utl: 用 于 URL 存 储 的 模块 。 


可 以 使 用 参数 设 定 模块 ， 这 些 模块 参数 可 以 静态 或 者 动态 地 进行 设 定 


。 必 须 在 节点 级 别 设置 这 些 模块 的 静态 方式 。 在 启动 节点 时 ， 可 以 在 elasticsearch.yml 文 件 中 设置 参数 ， 或 者 作为 环境 变量 在 命令 
行 上 设置 参数 。 这 些 参数 必须 在 集群 中 的 每 个 相关 节点 上 设置 。 也 可 以 使 


RP 
cluster-update-settings API 在 实时 群集 上 动态 更 新 。 例 如 ， 设 定 索引 恢复 的 速度 代码 如 下 : 


Curl -XPUT 'localhost:9200/_cluster/settings?pretty' -HB 'Content-TYpPe: application/json' -d'" 
{ 


"persistent" : { 
"indices.recovery.max bytes per sec" : "50mb" 
让 


4.8 ”Netty 通 信 框 架 


Netty (下 载 地 址 是 http://netty.io/) 是 一 个 NIO 客 户 端 服务 器 框架 ，Elasticsearch 采 用 Netty 实 现 HTTP 异 步 通 信 协 议 。 


Elasticsearch 中 的 服务 器 端 Netty4HttpServerTransport 位 于 transport-netty4 模 块 ， 客 户 端的 PreBuiltTransportClient 也 依赖 transport-netty4 模 块 。 


Netty 是 Reactor 设 计 模式 的 一 个 实现 。Reactor 设 计 模式 是 用 于 处 理由 一 个 或 多 个 输入 同时 发 送 到 服务 处 理 程序 的 服务 请 求 的 事件 处 理 模式 。 然 后 ， 服 务 处 理 器 多 路 复 用 输入 的 请 求 并 将 其 同步 分 派 到 
相关 联 的 请 求 处 理 程序 中 。 


ServerBootStrap 负 责 引 导 服 务 器 启动 NIO 服 务 。 使 用 ServerBootStrap 的 代码 如 下 : 


int workerCount=1; 


ServerBootstrap serverBootstrap = new ServerBootstrap(); 

ThreadFactory f = new DefaultThreadFactory ("thread pool"); // 守 护 线程 工厂 
//Reactor 单 线程 模型 

//I/0O 事 件 作 为 一 个 触发 器 ， 网 络 请 求 事件 在 NioEventLoop 中 进行 处 理 


serverBootstrap.group (new NioEventLoopGroup (workerCount, f£)); 


java.nio.channels.SelectorProvider 在 Linux 下 实现 了 基于 epoll 的 事件 通知 工具 ，epoll 工 具 在 Linux 2.6 和 更 高 版 本 的 内 核 中 可 用 。Netty 封 装 了 对 SelectorProvider 的 使 用 。 


4.9 缓存 


响应 查询 需要 花费 CPU 的 时 间 、 内 存 ， 增 加 集群 的 处 理 能 力 有 助 于 解决 这 个 问题 ， 但 是 过 度 配 置 的 费用 可 能 非常 高 。 缓 存 经 常 是 从 优化 工具 箱 中 拉 出 的 第 一 个 工具 。 


缓存 使 用 的 内 存 总 是 有 限 的 ， 因 此 需要 使 用 一 种 算法 来 检测 和 蔡 换 没有 价值 的 缓存 。 以 下 一 些 算法 用 于 缓存 项 蔡 换 。 


“Least Recently Used (LRU) : 最 近 最 少 使 用 ; 
“ Least Frequently Used (LFU) : 最 不 经 常 使 用 ; 


:First In First Out (FIFO) : 先进 先 出 。 


(LRU) 算法 。 研 究 表明 ， 相 比 旧 项 目 来 说 ， 新 项 目的 使 用 率 更 高 ，LRU 就 是 基于 这 个 原理 ， 该 算法 保持 跟踪 项 目的 最 后 访问 时 间 ， 清 除 有 最 早 的 访问 时 间 


其 中 ， 最 受 欢迎 的 一 个 算法 是 最 近 最 少 使 
截 的 项 目 。 


Elasticsearch 支 持 以 下 3 种 类 型 的 缓存 : 节点 查询 缓存 、 分 片 请 求 缓存 和 字段 数据 缓存 。 

“ 节点 查询 缓存 是 节点 上 所 有 分 片 共享 的 LRU 缓 存 。 它 缓存 在 过 滤器 上 下 文中 使 用 的 查询 结果 ， 在 以 前 的 Elasticseartch 版 本 中 ， 由 于 这 个 原因 也 被 称 为 过 滤器 缓存 。 过 滤器 上 下 文中 的 子 句 用 于 包含 (或 
排除 ) 结果 集中 的 文档 ， 但 不 影响 评分 。 此 外 ， 许 多 过 滤器 计算 速度 非常 快 ， 特 别 是 对 于 小 的 段 ， 而 其 他 过 滤器 则 很 少见 。 为 了 减少 流失 ， 节 点 缓存 只 包括 以 下 过 滤器 : 在 最 近 256 个 查询 中 被 多 次 使 用 属于 
超过 10000 个 文档 的 段 ( 或 占 文档 总 数 3% 的 过 滤器 ， 以 较 大 者 为 准 ) 。 

“ 分 片 请 求 缓存 为 每 个 分 片 独立 地 缓存 查询 结果 ， 也 使 用 LRU 和 替换 。 默 认 情 况 下 ， 请 求 缓存 也 限制 子 句 ， 只 缓存 大 小 为 0 的 请 求 (如 聚合 、 计 数 和 建议 ) 。 如 果 认为 应 该 缓存 查询 ， 就 可 以 在 请 求 中 添加 
tequest_cache=ttrue 标 志 。 不 是 所 有 的 子 名 都 将 被 缓存 ， 包 含 now 的 DateTime 子 名 不 会 被 缓存 ， 在 每 次 更 新 分 片 时 都 让 分 片 请 求 缓存 失效 。 这 可 能 导致 在 频繁 更 新 的 索引 中 性 能 不 佳 。 

“ 字段 数据 缓存 : 当 Elasticsearch 计 算 字 段 上 的 聚合 时 ， 它 会 将 所 有 字段 值 加 载 到 内 存 中 。 因 此 ，Elastisearch 中 的 计算 聚合 可 以 是 查询 中 最 “昂贵 ”的 操作 之 一 。 字 段 数据 缕 存 在 计算 聚合 时 保存 字段 
值 。 虽 然 Elastisearch 不 跟踪 命中 /未 命中 率 ， 但 建议 将 其 设置 为 足够 大 ， 以 便 将 所 有 值 都 保存 在 内 存 中 。 


有 许多 集成 可 用 于 监控 Elasticsearch 缓 存 ， 如 Sematext 和 Datadog 都 是 一 些 比较 常见 的 。 但 是 如 果 只 需要 在 开发 过 程 中 进行 检查 呢 ? 


Elasticsearch 提 供 了 许多 方法 来 检查 缓存 利用 率 ，_cat 节 点 API 会 在 一 次 调用 中 给 出 上 述 所 有 的 值 。 


# curl -XGET 'http://localhost:9200/_cat/nodes?v&h=id, queryCacheMemory, 
queryCacheEvictions, requestCacheMemory, 

requestCacheHitCount, requestCacheMissCount, flushTotal, flushTotalTime' 
id queryCacheMemory queryCacheEvictions requestCacheMemory 
requestCacheHitCount requestCacheMissCount flushTotal flushTotalTime 
yqrD Ob 0 0b 0 0 0 0s 


的 查询 缓存 内 存 数量 ，queryCacheEvictions 表 示 查 询 缓存 替换 次 数 ; requestCacheMemory 表 示 使 用 的 请 求 缓存 数量 ; requestCacheHitCount 


上 面 的 返回 结果 中 ，queryCacheMemory 表 示 使 有 
表示 请 求 缓存 命中 次 数 ; requestCacheMissCount 表 示 请 求 缓存 缺失 次 数 ; flushTotal 表 示 刷 新 次 数 ; flushTotalTime 表 示 刷 新 花费 的 时 间 。 


4.10 分 布 式 


节点 管理 集群 ， 主 节点 是 集群 中 唯一 可 以 更 改 集群 状态 的 节点 。 这 意味 着 如 果 主 节点 重新 启动 或 关闭 ， 那 么 将 无 法 对 群集 进行 任何 更 改 。 任 何 时 刻 集群 中 只 能 有 一 个 主 节 点 ， 但 是 


Elasticsearch 使 
为 了 避免 单 点 失败 ， 需 要 有 多 个 候选 主 节点 。 
包括 主 节点 在 内 的 每 个 节点 都 知道 每 个 文档 所 在 的 位 置 ， 并 可 将 搜索 请 求 直 接 转 发 到 保存 了 相关 数据 的 节点 上 。 当 搜索 请 求 发 送 到 一 个 节点 上 时 ， 该 节点 就 成 为 协调 节点 。 这 个 节点 的 工作 是 将 搜索 请 


求 广播 给 所 有 涉及 的 分 片 ， 并 将 它们 的 响应 收集 到 全 局 排序 的 结果 集中 ， 以 便 返 回 给 客户 端 。 


4.11 Zen 发 现 机 制 


Elasticsearch 集 群 默认 使 用 Zen Discovery (Zen 发 现 机 制 ) 管理 。 


Zen 发 现 机 制 是 Elasticsearch 默 认 的 内 建 模块 ， 它 提供 了 多 播 和 单 播 两 种 发 现 方式 ， 能 够 很 容易 地 扩展 至 云 环境 。 


Zen 发 现 机 制 是 和 其 他 模块 集成 的 ， 例 如 所 有 节点 间 通 信 必 须 用 Transport 模 块 来 完成 。Transport 模 块 层 是 自己 可 以 扩展 的 ，thrift 也 是 一 个 Transport 模 块 。 


Elasticsearch 运 行 时 会 启动 两 个 探测 进程 : 一 个 进程 用 于 从 主 节 点 向 集群 中 其 他 节点 发 送 ping 请 求 来 检测 节点 是 否 正常 可 用 ; 另 一 个 进程 的 工作 相反 ， 由 其 他 的 节点 向 主 节点 发 送 ping 请 求 来 验证 主 节 


点 是 否 正常 且 忠 于 职守 。 


一 个 集群 有 一 个 唯一 的 名 字 ， 包 含 一 个 或 者 多 个 节点 。 集 群 会 在 所 有 的 节点 中 自动 选择 一 个 作为 主 节点 ， 如 果 主 节点 宕 机 了 ， 则 会 自动 选择 另外 一 个 节点 作为 主 节点 。 经 典 的 主 节点 选举 算法 是 同行 评 


审 出 版 算法 (peer-reviewed published algorithm) 。 


Elasticsearch 采 用 了 一 个 简单 的 方法 来 选 出 主 节点 : 即 根据 编号 选择 节点 ， 较 小 的 编号 更 有 可 能 成 为 主 节点 。DiscoveryNode 类 中 记录 了 节点 编号 。 选 举 算法 的 实现 代码 在 


ElectMasterService.electMaster () 方法 中 。 


为 了 避免 一 个 集群 中 存在 不 同 的 主 节 点 ， 也 就 是 避免 “ 脑 裂 ”， 需 要 合理 地 设置 elasticsearch.ym 配 置 文件 。 


假设 可 以 成 为 集群 一 部 分 的 Elasticsearch 节 点 的 数量 (是 Elasticsearch 的 进程 数量 而 不 是 物理 机 器 的 数量 ) 是 N， 那 么 在 一 个 有 N> 2 个 节点 的 集群 上 ， 可 以 设置 


discovery.zen.minimum_master_nodes 的 值 不 小 于 (N/2) +1。 


理想 的 拓扑 结构 是 有 3 个 专用 的 主 节点 ( 即 master: true 并 且 data: false) ， 并 且 discovery.zen.minimum_master_nodes 的 设置 为 2。 这 样 无 论 集群 中 有 多 少数 据 节点 ， 都 不 需要 改变 节点 设置 。 


节点 的 配置 如 下 : 


例如 ， 


node .master:true 
node.data:false 
discovery.zen.minimum master nodes:2 


数据 节点 的 配置 如 下 : 


node.master:false 
node.data:true 
discovery.zen.minimum master nodes:2 


每 个 文档 都 保存 在 单独 的 主 分 片 里 。 当 对 一 个 文档 做 索引 的 时 候 ， 首 先 对 主 分 片 做 索引 ， 然 后 在 所 有 主 分 片 的 副本 里 做 索引 。 默 认 一 个 索引 有 5 个 主 分 片 ， 可 以 调整 主 分 片 的 数量 以 控制 一 个 索引 中 容纳 
文档 的 数量 。 索 引 创 建 之 后 ， 不 可 以 更 改 主 分 片 数 ， 即 使 只 在 一 台 机 器 上 安装 Elasticsearch， 也 可 能 会 有 5 个 独立 的 索引 库 。 


每 个 主 分 片 可 以 有 0 个 或 者 多 个 副本 ， 副 本 是 主 分 片 的 复制 品 ， 有 以 下 两 个 作用 。 


“ 提高 容错 能 力 : 如 果 主 分 片 宕 机 ， 副 本 分 片 可 以 被 提升 至 主 分 片 。 


“ 提高 性 能 : 搜索 访问 可 以 分 布 在 主 分 片 和 副本 分 片 之 间 。 


默认 每 个 主 分 片 有 一 个 副本 分 片 ， 但 副本 分 片 数量 可 以 在 已 经 存在 的 索引 上 动态 调整 。 在 同一 个 节点 上 ， 副 本 分 片 不 会 被 当做 主 分 片 启动 。 


我 们 用 3 个 节点 的 集群 举例 说 明 索 引 分 片 的 用 处 。 假 设 在 第 一 台 计 算 机 中 存放 索引 分 片 a、b、c， 第 二 台 计 算 机 中 存放 索引 分 片 a、b、d， 第 三 台 计 算 机 中 存放 索引 分 片 b、c、d。 这 样 实现 了 提升 索引 
整体 容量 的 同时 ， 也 提升 了 性 能 和 容错 能 力 。 


新 增 一 个 节点 ，Elasticsearch 会 自动 把 索引 数据 同步 到 该 新 增 的 节点 上 。 控 制 界面 中 显示 的 紫色 的 块 表示 正在 迁移 这 部 分 数据 。 


主 控 节 点 管理 shard (分 片 ) 的 分 配 ， 当 有 新 的 计算 机 进来 或 者 有 | 日 的 计算 机 失效 的 时 候 ， 就 会 重新 分 配 shard。 


依赖 注入 (Dependency Injection，DI) 很 好 ， 因 为 一 个 节点 有 很 多 个 索引 ， 每 个 索引 有 很 多 个 分 片 ， 每 个 分 片 是 不 同 的 Guice 模 块 。Elasticsearch 使 用 Google 开 源 的 依赖 注入 框架 
Guice (https://github.com/google/guice)， 而 没有 使 用 Spring 实 现 依 赖 注入 的 原因 是 : Spring 需 要 配置 文件 ， 用 起 来 太 笨重 。Elasticsearch 直 接 把 Guice 的 源码 放 入 了 自己 的 


org.elasticsearch.common.inject 包 内 。 


4.12 ”联合 搜索 


Elasticsearch 中 可 以 使 用 跨 群 集 搜索 来 执行 联合 搜索 。Elasticsearch 5.3.0 版 本 以 后 ， 可 以 通过 search.remote 命 名 空间 下 的 集群 更 新 设置 API 注 册 远程 集群 。 每 个 群集 都 由 群集 别名 和 用 于 发 现 属于 远 
程 群集 的 其 他 节点 的 种 子 节点 列表 进行 标识 。 代 码 如 下 : 


PUT cluster/settings 
{ 


"persistent": { 
"search": { 
"remote": { 
"cluster one": { 
"seeds": ["remote node one:9300"] // 和 集群 一 的 种 子 节点 


}, 
"cluster two": { 
"seeds": ["remote node two:9300"] // 和 集群 二 的 种 子 节点 


一 旦 注册 了 一 个 或 多 个 远程 集群 ， 就 可 以 使 用 _search API 对 其 索引 执行 搜索 请 求 。 与 本 地 索引 相反 ， 远 程 索引 必须 增加 群 组 别名 前 缀 来 消除 歧义 ， 如 cluster two: index test。 


每 当 搜索 请 求 扩展 到 远程 集群 上 的 索引 时 ， 协 调节 点 通过 每 个 集群 发 送 一 个 _search_shards 请 求 来 解析 远程 集群 上 这 些 索引 的 分 片 。 一 旦 获取 了 分 片 和 远程 数据 节点 ， 就 可 以 像 执 行 本 地 集群 上 的 搜索 
一 样 ， 使 用 完全 相同 的 代码 路 径 ， 显 著 提 高 了 可 测试 性 和 鲁 棒 性 。 


我 们 可 以 通过 search.remote.connect 设 置 来 控制 哪些 节点 可 以 作为 跨 集群 搜索 请 求 的 协调 节点 。 这 对 于 控制 集群 中 的 哪些 节点 可 以 向 远程 集群 发 送 请 求 是 有 用 的 。 如 果 不 允 许 连 接 到 远程 集群 的 节点 
接收 涉及 远程 集群 的 搜索 请 求 ， 则 会 返回 错误 。 


4.13 JVM 字 节 码 


Java 程 序 运行 在 专门 为 它 定 义 的 虚拟 机 上 ， 该 虚拟 机 叫做 Java Virtual Machine (简称 JVM) 。JVM 本 身 并 没有 定义 Java 程 序 设计 语言 ， 它 只 定义 了 包含 VM 指令 集 的 class 文 件 的 格式 及 一 个 符号 表 
等 


根据 CPU 的 寻 址 空间 ， 可 以 将 CPU 分 为 32 位 和 64 位 的 。JVM 为 这 两 种 CPU 做 了 专门 的 版 本 ， 字 长 是 32 位 和 64 位 的 JVM。 为 了 实现 这 样 跨 平台 运行 的 想法 ， 每 种 常用 的 CPU 和 操作 系统 组 合 都 有 现成 的 
JVM 实 现 ， 如 图 4-10 所 示 。 


Java 应 用 程序 


Windows 版 JVM 


可 以 在 Windows 平 台 编译 一 个 Java 程 序 ， 并 且 在 Linux 平 台 运行 它 ， 因 为 Windows 和 Linux 都 支持 JVM 实 现 。Linux 平 台 下 的 指令 集 可 能 和 Java 编 译 器 生成 的 字 节 码 不 一 样 。 一 个 JVM 可 以 一 次 性 地 解释 


图 4-10 运行 在 JVM 上 的 Java 应 用 程序 


字 节 码 ， 或 者 把 字 节 码 编译 成 它 所 运行 的 本 地 代码 ， 这 种 优化 技术 叫做 JIT (Just-In-Time) 。Java 字 节 码 程序 可 以 运行 在 任何 有 字 节 码 解释 器 的 程序 上 ， 如 图 4-11 所 示 。 


Java 源 代码 


图 4-11 一 次 编译 随处 运行 的 Java 应 用 程序 


JVM 定 义 了 一 套 通用 的 虚拟 指令 集 ， 即 JVM 指 令 集 。JVM 是 基于 栈 结构 的 计算 机 。JVM 指 令 集中 的 相关 操作 数 在 栈 顶 运算 。 例 如 ， 如 果 解释 器 要 执行 整数 加 法 ， 就 是 从 栈 顶 弹出 两 个 整数 进行 加 法 运 
算 ， 最 后 将 结果 压 入 栈 项 。 


4.13.1 编译 代码 


Java 源 代码 首先 通过 JavaCompiler 编 译 成 字 节 码 存放 在 Class 文 件 中 ， 在 运行 前 JVM 还 可 以 把 Class 文 件 编译 成 机 器 码 。 


使 用 JavaCompiler 编 译 源 代码 : 


// 先 检查 java.home/1ib 下 的 tools.jar 文件 ， 该 文件 必须 存在 
System.out .println (System.getProperty ("java.home")); 
JavaCompiler compiler=ToolProvider.getSystemJavaCompiler(); 


System.out.println ("JavaCompiler: " + compiler); 
int results = compiler.run(null, null, null, "f:/test/Cat.java"); 
System.out .Println((results 一 0) ? "编译 成 功 " : "编译 失败 "); 


在 Java 9 中 ， 编 译 出 的 代码 不 再 是 使 用 内 置 的 即时 (JIT) 编译 器 专门 创建 的 。Java 9 为 使 用 java 编写 的 JI 编译 器 指定 了 一 个 新 的 接口 (JVMCI) 。 这 意味 着 任何 人 都 可 以 发 布 一 个 可 以 轻松 连接 到 虚拟 
机 的 JIT 编 译 器 。 编 译 器 可 以 是 系统 中 独 有 的 JIT 编 译 器 ， 也 可 以 与 分 层 模 式 下 的 内 置 JIT 编 译 器 一 起 使 用 。 在 第 一 种 情况 下 ， 编 译 器 (就 像 任 何 应 用 程序 一 样 ， 只 是 Java 代 码 ) 解释 并 最 终 编译 自己 ; 然而 ， 
在 后 一 种 情况 下 ， 编 译 后 的 代码 可 以 用 于 任何 编译 层 。 与 其 他 虚拟 机 一 样 ，Hotspot 已 经 默认 为 分 层 编译 模式 。 在 这 种 模式 下 ， 一 个 方法 是 通过 解释 开始 的 ， 但 是 在 达到 特定 数量 的 执行 后 ， 由 客户 端 编译 
器 编译 (快速 生成 代码 ， 但 只 是 相当 简单 的 优化 ) 。 最 后 一 旦 发 生 了 足够 数量 的 执行 ， 代 码 由 服务 器 端 编译 器 编译 (速度 相对 较 慢 ， 但 积极 地 优化 ) 以 实现 最 佳 性 能 。 自 定义 JIT 可 以 在 任何 级 别 插入 ， 这 意 
味 着 它 既 可 以 用 作 中 间 层 ， 也 可 以 用 作 最 后 一 层 。 


Oracle JDK 9 中 的 JAOTC (Java Ahead-of-time Compiler) 可 以 把 指定 的 Java Class 文 件 /module 文 件 提前 编译 成 机 器 码 。 在 Linux/x86-64 中 ， 生 成 的 机 器 码 被 包装 在 ELF 格 式 的 文件 中 ， 用 Linux 自 
带 的 objdump 就 可 以 查看 它 的 内 容 。 


尽管 虚拟 机 会 立即 开始 使 用 提前 编译 的 代码 ( 绕 过 解释 ) ， 但 是 代码 仍然 会 被 最 终 编译 以 实现 更 好 的 性 能 。 这 个 功能 主要 是 为 了 减少 启动 时 间 ， 提 高 执行 过 少 的 方法 的 性 能 ， 因 为 它们 不 能 进行 JIT 编 


4.13.2 ”同步 相关 指令 


JVM 中 只 有 两 个 指令 和 同步 相关 ， 一 个 是 进入 monitor， 还 有 一 个 是 退出 monitor。monitorenter 和 monitorexit 用 于 同步 语句 块 。monitorenter 进 入 到 一 个 同步 语句 块 ， 该 语句 块 被 锁 
住 ，monitorexit 离 开 这 个 语句 块 ， 解 锁 。 


每 个 对 象 都 有 一 个 对 应 的 monitor， 执 行 monitorenter 的 线程 获得 对 象 引 用 的 所 有 权 。 如 果 有 其 他 线程 获取 了 这 个 对 象 的 monitor， 当 前 的 线程 就 要 一 直 等 待 ， 直 到 这 个 对 象 解锁 ， 然 后 再 试 着 得 到 所 
有 权 。 一 个 线程 不 会 被 自己 阻塞 ， 如 果 当 前 线程 已 经 拥有 一 个 对 象 上 的 锁 ， 则 执行 monitorenter 会 让 计数 器 递增 ， 当 计数 器 返回 0 时 ， 锁 才 会 被 释放 。 


一 个 monitorenter 指 令 可 以 和 一 个 或 多 个 monitorexit 指 令 一 起 使 用 ， 实 现 一 个 synchronized 语 句 。 但 是 monitorenter 和 monitorexit 指 令 没有 用 于 执行 同步 方法 ， 虽 然 可 以 用 它们 来 提供 相同 的 锁 语 
义 。 一 个 同步 方法 调用 的 监控 项 目 ， 通 过 java 虚 拟 机 的 方法 调用 指令 进行 隐 式 地 处 理 。 可 以 在 同步 方法 的 定义 上 设置 ACC_SYNCHRONIZED 标 签 ， 所 以 方法 的 实际 字 节 码 看 不 出 来 。 


类 似 的 效果 也 发 生 在 volatile 属 性 上 : 它 只 是 简单 地 设置 属性 的 ACC_VOLATILE 标 志 ， 访 问 这 个 属性 的 代码 使 用 相同 的 字 节 码 ， 只 是 行为 稍 有 不 同 。 


同步 方法 和 同步 代码 块 基本 上 是 等 价 的。 同步 方法 的 写法 如 下 : 


public synchronized void method() { // 从 这 里 阻塞 "this"http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/OEBPS/Text/. .http://www.hzc 


} // 到 这 里 


同步 代码 块 的 写法 如 下 : 


public void method() { 
synchronized( this ) { // 从 这 里 阻塞 "this" http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/OEBPS/Text/..http://www.hzcour 


} // 到 这 里 


4.14 ”本 章 小 结 


关于 Lucene 的 Java Doc 说 明文 档 可 参考 网 址 http://lucene.apache.org/core/documentation.html。 


Doug Cutting 在 1999 年 开发 Lucene 以 前 ,， 使 用 C++ 开 发 过 搜索 引擎 ，Lucene 是 他 写 的 第 一 个 Java 软 件 。 在 后 来 的 十 多 年 里 ，Lucene 越 来 越 流行 ， 成 为 开源 组 织 Apache 基 金 会 的 项 目 ， 并 在 维基 百科 
网 站 等 项 目 中 得 到 了 广泛 应 用 。Doug Cutting 后 来 开发 的 MapReduce 的 Java 版 本 Hadoop 也 同样 成 功 ， 也 因此 进入 了 Apache 基 金 董事 会 ， 并 在 2010 年 成 为 董事 会 主席 。 


可 以 使 用 Luke (网 址 为 https://github.com/DmitryKey/luke) 分 析 本 地 硬盘 上 的 Elasticsearch 索 引 ， 使 用 luke.bat 或 luke.sh 运 行 Luke， 然 后 就 可 以 在 /indexname/0/index/ 这 样 的 路 径 中 打开 索引 。 


某 些 物种 进化 到 一 定 程度 以 后 ， 就 开始 逐步 收敛 。Lucene 6 以 后 ， 使 用 它 的 代码 不 再 有 什么 变化 了 。 


Ant 可 以 自动 化 打包 逻辑 ，Maven 也 可 以 自动 化 打包 。 相 比 于 Ant，Maven 多 做 的 事 是 帮 你 下 载 jar 包 ， 而 Gradle 既 能 自动 下 jar 包 ， 又 能 自己 写 脚本 。 


Elasticsearch 早 期 的 版 本 使 用 JGroups 实 现 多 播 。JGroups 是 一 个 用 于 方便 集群 开发 的 组 件 ， 它 依赖 组 播 。 


Netty 是 一 个 高 性 能 、 事 件 驱动 的 异步 非 堵塞 的 MO 框架 。Elasticsearch 使 用 Netty 作 为 HTTP 容 器 ， 可 以 灵活 地 通过 插件 为 Netty 管 道 添加 安全 性 。 


直到 Elasticsearch 5 版 本 为 止 ， 仍 然 采用 HTTP/1.1， 没 有 采用 性 能 更 好 的 HTTP/2。 


第 5 章 ”提高 搜索 相关 性 


搜索 引 丈 需 要 把 符合 查询 条 件 的 文档 按 相关 度 排序 后 输出 。 评 估 查 询 词 和 文档 相关 性 的 方法 叫做 检索 模型 。 当 前 有 BM25 和 学 习 评分 两 种 流行 的 方法 。 


对 于 一 个 封闭 的 文档 集合 ， 可 以 使 用 准确 率 和 召回 率 等 指标 来 评价 检索 模型 。 其 中 : 


“ 准确 率 = 返 回 结果 中 相关 文档 数目 /返回 结果 的 数目 ; 
“ 召回 率 = 返 回 结果 中 相关 文档 数目 /所 有 相关 文档 数目 。 


下 面 从 最 基本 的 向 量 空间 检索 模型 开始 介绍 。 


5.1 向 量 空间 检索 模型 


向 量 空间 模型 (Vector Space Model，VSM) ， 是 一 个 把 文档 表示 成 索引 词 形成 的 向 量 的 代数 模型 ， 如 图 5-1 所 示 。 


d d; 


4 5 


图 5-1 ”向量 空间 


如 果 两 个 向 量 夹 角 为 0"， 则 相似 度 为 100%; 如 果 两 个 向 量 夹 角 为 180"， 则 相似 度 为 0。 


文档 d 对 于 查询 词 q 的 VSM 分 值 是 带 权 重 的 查询 向 量 V (q) 和 文档 向 量 V (d) 的 夹 角 余弦 (Cos) 相似 度 : 


cosine-similarity(qg,d ) = ON x V(d) 


rx YO rN Ira 


式 中 : 
“ 查询 向 量 V (q) =<w (ti, qq) ，w (ty, gq) ，…，w (tn, dq) >; 
“文档 向 量 V (d) =<w (t1, d) ，w (ty, d) ，…， (tn, d) >; 


“V (gq) .V (d) 是 两 个 带 权重 的 向 量 的 点 积 ， 计 算 方 法 是 V (gq) :V (d) =w (ti, q) w(t, d) tw (ts, q) :w(t, dh ttw (ts, gq) ‘w(t, d); 


.TV (9) || 和 ||V (d) 1 表示 欧 几 里 得 范 数 。 例 如 ，|IKdJ= YR+E+…+ 太 ， 这 里 的 t 是 文档 d 中 出 现 的 词 的 权重 。 


式 中 分 母 涉及 向 量 的 长 度 ， 用 来 归 一 化 。 向 量 长 度 归 一 化 的 方法 是 : 每 个 分 量 除 以 它 的 长 度 ， 这 里 使 用 L2 范 数 计 算 向 量 长 度 : 


,= 


这 里 使 用 L2 范 数 把 文档 归 一 化 成 为 单位 向 量 ，Cos (9q，d) 是 q 的 单位 向 量 和 d 的 单位 向 量 点 乘积 。 如 图 5-2 是 一 个 简单 的 


示例 子 。 
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图 5-2 ”查询 相似 度 


计算 向 量 长 度 的 实现 代码 如 下 : 


Di= (0.8, 0.3) 
D,= (0.2，0.7) 
= (0.4,，0.8) 
SOSQ—=0.74 
SOSOJ 一 0.98 


1.0 


public static double vectorLength (int[] Vector) { 
double sumofSquares = 0d; 
for (int i = 0; i < vector.length; i++) { 
sumOfSquares = sumOfSquares + (vector[i] * vector[i]) ; // 平 方 求 和 


return Math.sqrt (sumOfSquares); // 开 根 号 
时 


计算 两 个 向 量 之 间 点 积 的 代码 如 下 : 


public static int scalarProduct (int[] one, int[] two){ 
int result = 0; 
for (int i = 0; i < one.length; i++) { // 两 个 输入 向 量 长 度 是 相同 的 
result += one[i] * two[i]7 
} 
return result; 


} 


根据 点 积 和 向 量 长 度 计算 夹 角 余弦 的 代码 如 下 : 


public static double cosineOfVectors (int[] one, int[] two){ 


double denominater = (vectorLength (one) * VectorLength (two) ) 7 // 分 母 
if (denominater == 0) { 

return 0; 
} else { 


// 两 个 向 量 之 间 的 点 积 除 以 两 个 向 量 的 长 度 乘积 
return (scalarProduct (one, two) / denominater); 
和 
} 


举例 应 用 计算 代码 : 


查询 q: (< 开源 : 1>, < 数据 库 : 2>) 
文档 d1: ( 1>, < 数据 库 : 3>, <PostgreSQL: 1>) 
文档 d2: (< 商业 : 1>, < 数据 库 2>, <Oracle: 1>) 


人 


查询 和 文档 进行 向 量 相似 度 的 计算 : 


int[] gqg= {1,27}; // 查 询 的 向 量 表示 

int[] d = {1,3]}; // 文 档 G1 的 向 量 表示 

int[] d2= {0,21}; // 文 档 d2 的 向 量 表 示 

double scorel = VectorUtils.cosineOfVectors (gq, dl1); 

System.out .Println (scorel); // 文 档 d1 和 查询 q 的 夹 角 余弦 值 0.99 
double score2 = VectorUtils.cosineOfVectors (gq, d2); 

System.out .Println (score2); // 文 档 q92 和 查询 q 的 夹 角 余弦 值 0.89 


Lucene 使 用 布尔 模型 来 确定 哪些 文档 匹配 查询 词 ， 使 用 向 量 空 间 模型 对 这 些 文档 评分 。 评 分 算法 中 的 向 量 空间 模型 使 用 Tf-idf 计 算 权重 


TF (Term Frequence) 代表 词 频 ，IDF (lnvert Document Frequence) 代表 文档 频率 的 倒数 。 比 如 “的 ”在 100 篇 索引 文档 中 的 40 篇 文档 中 出 现 过 ， 则 文档 频率 DF (Document Frequence) 是 
40，1IDF 是 1/40。“ 的 ”在 第 一 篇 文档 中 出 现 了 15 次 ， 则 TF-IDF (的 ) =15x1/40=0.375。 另 外 一 个 词 “ 户 口 ” 在 100 篇 文档 中 的 5 篇 文档 中 出 现 过 ， 则 DF 是 5，IDF 是 1/5。 “户口 ”在 第 一 篇 文档 中 出 现 了 
5 次 ， 则 TF-IDF (户口 ) =5x1/5=1。 结 果 是 : TF-IDF (户口 ) >TF-IDF (的 ) 。 对 给 定 的 词 t 和 文档 (或 者 查询 ) x，Tf (t，x) 的 值 和 词 t 在 x 中 出 现 的 次 数 正 相关 ， 而 idf (t) 的 值 和 索引 文档 集合 中 包含 词 
t 的 次 数 负 相 关 。 


输入 向 量 由 整数 改 成 浮 点 数 计算 夹 角 余 弦 ， 代 码 如 下 : 


public double cosineSimilarity(double[] docVectorl, double[] docVector2) { 


double dotProduct = 0.0; // 存 两 个 向 量 的 点 积 值 
double magnitudel = 0.0; // 第 一 个 向 量 的 范 数 
double magnitude2 = 0.0; // 第 二 个 向 量 的 范 数 


double cosineSimilarity = 0.0; 


for (int i = 0; i < docVectorl.length; i++) { 
dotProduct += docVectorl[i] * docVector2[i]; // 计 算 a.b 


magnitudel += Math.pow (docVectorl [i], 2); // 计 算 (a^2) 
magnitude2 += Math.pow (docVector2[i], 2); // 计 算 (b^2) 
} 
magnitudel = Math.sqrt (magnitudel); // 计 算 sqrt (a^2) 
magnitude2 = Math.sqrt (magnitude2); // 计 算 sqrt (b^2) 


if (magnitudel != 0.0 | magnitude2 != 0.0) { 
// 得 到 夹 角 余 弦 值 
cosineSimilarity = dotProduct / (magnitudel * magnitude2); 
} else { 
return 0.0; 
} 


return cosineSimilarity; 


5.2 ”BM25 检 索 模型 


可 以 认为 打上 了 和 查询 词 同 样 标签 的 文档 是 相关 文档 。 但 很 多 时 候 ， 猜 测 文档 是 否 有 相关 内 容 是 没有 把 握 的 。 所 以 可 以 用 概率 来 量化 这 种 不 确定 性 ， 可 以 把 信息 检索 作为 分 类 问题 ， 一 类 是 相关 文档 R， 
还 有 一 类 是 无 关 的 文档 NR。 根 据 贝 叶 斯 判别 规则 ， 如 果 P (RID) >P (NRID) ， 则 D 是 相关 的 文档 ; 如 果 P (RID) <P (NRID) ， 则 D 是 不 相关 的 文档 。 例 如 ，P (RID) =0.8, P (NRID) =0.2， 则 D 是 和 
户 查询 相关 的 文档 。 如 图 5-3 所 示 ， 把 “新 生 婴 儿 入 户 须 知 ”这 个 索引 库 中 的 文档 分 成 了 相关 文档 和 不 相关 文档 。 


P (RID) 相关 文档 


个 相关 文档 


图 5-3 ”把 信息 检索 看 成 分 类 问题 


如 果 知道 相关 文档 集合 ， 就 能 够 计算 出 P (DIR) 。 例 如 ， 如 果 知 道 某 个 词 在 相关 文档 集合 中 频繁 出 现 的 次 数 ， 然 后 给 定 一 个 新 文档 ， 就 能 直接 计算 出 该 文档 中 词 的 组 合 有 多 大 可 能 性 出 现在 相关 文档 集 


使 用 贝 叶 斯 公式 估计 概率 : 


P(D|R)P(R) 
P(D) 


比较 P (RID) 和 P (NRID) 的 值 。 如 果 满 足 P (RID) P (R) >P (DINR) P (NR) ， 则 把 文档 分 到 相关 类 中 。 把 一 个 文档 分 类 成 相关 的 条 件 ， 可 以 写成 : 


P(DIR) P(NR) 
P(DINR)  P(R) 


左边 的 式 子 叫做 似 然 比 ， 需 要 计算 P (DIR) 和 P (DINR) 。 为 了 简化 计算 ,我 们 把 文档 表示 成 词 的 组 合 ， 用 词 概率 估计 P (DIR) 和 P (DINR) 。 


P(R|D)= 


可 以 用 一 个 二 值 特征 的 向 量 表示 文档 的 特征 ， 表 示 文档 中 出 现 或 者 不 出 现 某 个 词 。 把 文档 表示 成 二 项 特征 组 成 的 向 量 ，D= (d1，d2，.…，dt) ， 如 果 词 出 现在 文档 中 ， 则 di=1， 否 则 就 是 9。 如 果 假 设 
词 都 是 独立 出 现 的， 则 P (DIR) 可 以 用 词 概率 的 乘积 1 ?(4 | Ri 计算 。 因 为 这 个 模型 假设 词 独立 出 现 ， 而 且 使 用 文档 的 二 项 特征 ， 所 以 叫做 二 项 独立 模型。 


己 


假设 索引 库 包 含 5 个 词 ， 某 文档 D 根 据 二 元 假设 ， 表 示 为 人 ，0，1，0}， 其 含义 是 这 个 文档 出 现 了 第 1 个 、 第 3 个 和 第 5 个 词 ， 但 不 包含 第 2 个 和 第 4 个 词 


我 们 用 P 读 代表 第 i 个 词 在 相关 文档 集合 内 出 现 的 概率 ， 于 是 在 已 知 相关 文档 集合 的 情况 下 ， 文 档 D 相 关 的 概率 为 : 


PRID)=PX(L-P)XPX(1-P)XP: 


其 中 的 1-P2 代 表 了 第 2 个 词 不 出 现在 相关 文档 中 的 概率 ,因为 ?|R) + Pb Rl 


为 了 计算 P (DINR) ， 假 设 用 Si 代表 第 i 个 词语 或 单词 在 不 相关 文档 集合 内 出 现 的 概率 ， 于 是 在 已 知 不 相关 文档 集合 的 情况 下 ， 观 察 到 文档 D 的 概率 为 : 


P(DINR)=S, X (1-$,)) XS;X(1-S1) XS; 


例如 ， 查 询 “ 信 息 检索 教程 ”的 所 有 词 项 在 相关 、 不 相关 情况 下 的 概率 说 明 ，pi、si 分 别 如 表 5-1 所 示 。 


表 5-1 概率 说 明 表 


假设 文档 D1 中 只 有 两 个 词 : 检索 和 课件 ， 则 


P(DIR)=(1-0.8) X 0.9X(1-0.3)X(1-0.32)X0.15 
P(DINR)= (1-0.3)X0.1X(1-0.35)X (1-0.33)X0.10 
P(DIR)/P(DINR)=4.216 


回 到 似 然 比 。 使 用 P 和 Si 得 到 分 值 : 


岗 


PID | 有) Dp; -pb, 


P(D NR) dd,=1 \ i:d,=0 3 


其 中 ， 天 的 意思 是 在 文档 向 量 中 信 为 1 的 词 对 应 的 乘积 。 把 上 面 的 公式 转换 下 : 


pTTl-P_ TPTTIS TP TIP: 
HI ([I—1[—)1I 


i:d;=1 5; i:d;=0 i i:d,=1 5; ye 册 i:d;=l 1 一 5 i:d;=0 l= 


第 二 项 在 所 有 定义 向 量 维度 的 词 上 运算 ， 因 此 对 任何 文档 来 说 ， 值 都 是 一 样 的 ， 对 文档 评分 时 可 以 忽略 这 一 项 。 


因为 多 个 很 小 的 数 相 乘 可 能 会 导致 精度 丢失 或 者 向 下 溢出 成 为 0， 所 以 对 计算 公式 取 Ilog， 这 样 评 分 公式 变 成 了 


如 果 存 在 相关 性 反馈 ， 则 可 以 得 到 相关 文档 和 无 关 文档 集合 。 也 就 是 说 ， 给 定 用 户 查 询 ， 如 果 可 以 确定 哪些 文档 构成 了 相关 文档 集合 ， 哪 些 文档 构成 了 不 相关 的 文档 集合 ， 那 么 就 可 以 利用 表 5-2 所 列 出 
的 数据 来 估算 单词 概率 。 


表 5-2 某 个 查询 的 词 出 现 情况 的 相依 表 


相关 文档 不 相关 文档 文档 总 数 
d; =0 R-r; N- Ni; -R+r; N-n; 


表 5-2 中 第 3 行 的 N 为 文档 集合 总 共 包含 的 文档 个 数 ，R 为 相关 文档 的 个 数 ， 于 是 N-R 就 是 不 相关 文档 集合 的 大 小 。 对 于 某 个 词语 或 单词 d 来 说 ,假设 包含 这 个 词语 的 文档 数量 共有 ni 个 ， 而 其 中 相关 文档 
有 ri 个 ， 那 么 不 相关 文档 中 包含 这 个 单词 的 文档 数量 则 为 ni-ri。 再 考虑 表 中 第 2 列 ， 因 为 相关 文档 个 数 是 R， 而 其 中 出 现 过 单词 d 的 有 ri 个 ， 那 么 相关 文档 中 没有 出 现 过 这 个 单词 的 文档 个 数 为 R-ri 个 ， 同 理 ， 不 
相关 文档 中 没有 出 现 过 这 个 单词 的 文档 个 数 为 (N-R) - (ni-ri) 个 。 从 表 5-2 中 可 以 看 出 ， 如 果 假 设 我 们 已 经 知道 N、R、ni、r 的 话 ， 那 么 其 他 参数 可 以 靠 这 4 个 值 推导 出 来 。 


采用 最 大 似 然 估计 ， 计 算 % -天 ，%- Y2R。 为 了 和 避免 是 0 导致 的 log0 无 法 计算 的 问题 ， 可 以 采用 相关 文档 和 不 相关 文档 都 加 0.5 的 平滑 方法 。 这 样 得 到 ”- 写 呈 5 爷 全 车 。 把 这 些 值 放 入 打分 公式 中 得 


到 


> 10 (r+0.5)/(R-r +0.5) 
,nr+05)/(N-n-Rtr+0.5) 


这 个 打分 公式 没有 考虑 词 频 ， 相 关 度 比 考虑 词 频 的 公式 低 50%。 


Okapi BM25 (简称 BM25) 是 一 种 相关 性 排序 函数 ， 适 用 于 搜索 引擎 根据 与 给 定 搜索 查询 的 相关 性 对 匹配 文档 进行 排序 。 


BM25 是 一 个 基于 单词 集合 的 检索 函数 ， 它 依据 出 现在 每 个 文档 中 的 查询 词 对 匹配 文档 集合 排序 ， 而 不 管 查询 词 在 文档 内 相互 之 间 的 联系 。 它 不 是 一 个 单一 的 函数 ， 实 际 上 是 有 了 略微 不 同 的 组 件 和 参数 
变化 的 一 群 函数 的 集合 。 一 个 最 典型 的 具体 函数 如 下 : 


假定 有 一 个 查询 词组 Q， 含 有 关键 词 q1，.…，qn， 用 BM25 给 文档 D 评 分 的 公式 是 


SCORE(D, QO) = YIDF(g)x f (qiD): (k+l) 


D 
村 f(q,D)+h (b+b: 2 


其 中 , f (qi，D) 是 检索 词 qi 在 文档 D 中 的 频率 ，|D| 是 文档 D 以 单词 为 单位 的 长 度 ，avgd1 是 从 抽取 出 的 文档 的 文本 集合 的 平均 文档 长 度 。k1 和 b 是 自由 参数 ， 通 常 选择 k1=2.0 和 b=0.75。IDF (qi) 是 


ee (9g;) 
n(gq ;) 十 0.> 


Man 


这 里 ，N 是 集合 中 文档 的 总 数 ，n (qi) 是 包含 qi 的 文档 个 数 。 


5.2.1 使 用 BM25 检 索 模型 


基本 上 可 以 在 索引 设置 中 定义 类 似 于 自 定义 分 析 器 的 自 定义 BM25 相 似 度 ， 也 就 是 定义 b 和 k1 的 值 。 例 如 : 


# curl -XPUT "http://<server>/<index>" -d ' 
{ 
"settings": { 
"similarity": { 


"custom bm25": { 
"type™: "BM25", // 相 似 性 类 型 为 BM25 
ry // 设 定 b 的 值 
je S09 // 设 定 k1 的 值 


5.2.2 ”参数 调 优 


为 了 在 BM25 中 调整 参数 b 和 k1 (这 些 参数 对 数据 集 非常 依赖 ) ， 简 单 的 方法 是 : 调整 参数 ， 然 后 检查 结果 ， 如 果 不 满 意 ， 更 改 参数 并 再 次 测试 结果 。 也 可 以 使 用 像 遗 传 算法 或 蚁 群 算法 (Ant colony 
optimization) 这 样 的 启发 式 算法 自动 调整 参数 。 


TF 归 一 化 调 优 的 经 典 方法 是 旋转 归 一 化 方法 ， 但 这 个 方法 存在 集合 依赖 问题 ， 可 以 下 载 TREC 提 供 的 数据 集 进行 自动 调 参 。 数 据 集中 的 Ad hoc Search 针 对 一 个 国定 的 文档 集合 ， 根 据 用 户 输入 的 查询 问 
会 返回 相关 性 降序 输出 的 文档 列表 。 


Jenetics (下 载 地 址 是 https://github.com/jenetics/jenetics) 是 一 个 以 java 语言 编写 的 遗传 算法 库 。 它 被 设计 成 明确 地 分 离 算法 的 几 个 概念 ， 如 ， 基 因 、 染 色 体 、 基 因 型 、 表 型 、 群 体 和 适应 度 函 数 


(Fitness Function) 。 


5.3 学习 评 分 


可 以 利用 用 户 的 点 击 日 志 分 析出 哪些 文档 和 查询 词 最 相关 ， 根 据 用 户 搜索 行为 调整 搜索 结果 排序 ， 此 外 ， 还 可 以 通过 社交 网 络 判断 文档 相关 度 。 


学 习 评分 (Learning to Rank) 采用 机 器 学 习 方法 训练 出 的 采用 多 种 特征 的 模型 用 来 对 文档 相关 度 进 行 评 分 。 它 是 一 种 有 监督 或 半 监 督 的 机 器 学 习 问题 ， 其 目标 是 从 训练 数据 自动 构建 评分 模型 ， 这 样 
恶意 用 户 更 难以 操作 排名 。 


我 们 可 以 使 用 流行 度数 据 用 于 训练 。 例 如 ， 访 问 量 、 用 户 在 页 面 停留 了 多 久 等 。 


5.3.1 基本 原理 


可 以 人 工 标注 出 一 个 理想 的 文档 相关 性 排序 ， 然 后 采用 一 种 学 习 评分 算法 学 习 出 模型 。LambdaMART 是 一 种 当前 流行 的 学 习 评分 算法 ， 是 从 Pairwise 方 法 中 逐渐 发 展 起 来 的 方法 。Pairwise 方 法 的 主要 
想 是 将 排序 问题 形式 化 为 二 元 分 类 问题 ; Pairwise 方 法 通过 考虑 两 两 文档 之 间 的 相对 相关 度 进行 排序 。 例 如 ， 文 档 X 比 文档 Y 更 相关 ， 还 是 更 不 相关 ， 这 是 一 个 二 元 分 类 问题 。 其 目标 是 最 小 化 反 转 的 寺 
名 ， 也 就 是 让 损失 最 小 。RankNet 算 法 其 实 是 一 个 Pairwise 方 法 ， 它 使 用 交叉 粹 作为 损失 函数 ， 损 失 浮 数 的 值 越 低 说 明 机 器 学 得 的 当前 排序 越 趋 近 于 理想 排序 。RankNet 算 法 可 以 使 用 神经 网 络 模型 ， 也 可 
以 使 用 渐进 梯度 回归 树 (Gradient Boost Regression Tree， 简 称 GDBT) 模型 。 


刻 


如 果 GDBT 模 型 求解 过 程 使 用 求 梯度 的 Lambda 方 法 ， 就 是 LambdaMART 算 法 。 这 里 的 MART (Multiple Additive Regression Tree) ， 也 就 是 GBDT (GradientBoosting Decision Tree) 。Lambda 
的 含义 是 一 个 待 排 序 的 文档 下 一 次 迭代 应 该 排序 的 方向 (向 上 或 者 向 下 ) 和 强度 。 


在 实施 学 习 排 名 时 ， 需 要 注意 以 下 几 点 : 

: 通过 分 析 测 量 用 户 认为 相关 的 内 容 ， 为 查询 建立 一 个 评估 列表 ， 将 文档 分 级 为 完全 相关 、 中 等 相关 、 不 相关 。 
: 假设 哪些 特征 可 能 有 助 于 预测 相关 性 ， 如 特定 字段 匹配 的 TF . IDF 值 、 新 鲜 度 、 搜 索 用 户 的 个 性 化 等 。 

: 训练 一 个 模型 ， 可 以 准确 地 映射 特征 到 相关 性 的 分 数 。 


: 将 模型 部 署 到 你 的 搜索 基础 架构 上 ， 使 用 它 对 生产 系统 中 的 搜索 结果 进行 排名 。 


机 器 学 习 评 分 包 RankLib (网 址 为 https://sourceforge.net/p/lemur/wiki/RankLib/) 用 于 Lemur 搜 索引 擎 ， 但 也 可 以 修改 后 和 Lucene 一 起 使 用 。 


可 以 直接 在 命令 行 运行 RankLibjar: 


> java -jar RankLib.jar 


5.3.2 ”准备 数据 


本 节 以 搜索 电影 作为 例子 。 这 里 使 用 电影 数据 (https://github.comy/holgerbrandythemoviedbapi) ， 先 在 电影 数据 库 网 站 (https://www.themoviedb.org) 申请 AP1， 然 后 
从 https:Wjcenterbintray.comy/ 网 站 下 载 依赖 的 jar 包 。 


如 果 使 用 Maven， 那 么 可 以 手动 将 此 repo 添 加 到 pom.xml 或 settings.xml 中 : 


<repositories> 
<repository> 
<id>jcenter</id> 
<releases> 
<enabled>true</enabled> 
</releases> 
<snapshots> 
<enabled>false</enabled> 
</snapshots> 
<url>https://jcenter.bintray.com/</url> 
</repository> 
</repositories> 


搜索 电影 数据 库 的 代码 如 下 : 


TmdbApi tmdb = new TmdbApi (apiKey); // 使 用 Key 创 建 API 
TmdbSearch search = tmdb.getSearch(); // 得 到 查询 对 象 
String keyWords = "Rambo"; // 查 询 词 

// 返 回 搜索 结果 页 


MovieResultsPage movieResultsPage = 

search. searchMovie (keyWords, null, null, false, null); 
// 得 到 电影 列表 
List<MovieDb> movies = movieResultsPage.getResults (); 
System.out .println (movies.size()); // 输 出 返回 的 电影 数量 


System.out .Println (movies); // 按 相关 度 输 出 电影 列表 


首先 创建 一 个 判断 列表 。 一 般 用 一 个 0 ~ 4 的 数值 表示 ，0 表 示 不 相关 ，4 表 示 完 全 相关 。 


然后 考虑 搜索 rambo。 如 果 doc_1234 是 电影 Rambo， 而 doc_5678 是 Turner and Hooch， 那 么 可 以 做 出 以 下 两 个 判断 : 


4,rambo, doc 1234 # 电影 "Rambo" 是 查询 词 "rambo" 的 精确 匹配 (第 4 等 级 ) 
0,rambo, doc 5678 # 电影 "Turner and Hooch" 则 与 查询 词 "rambo" 完 全 不 相关 〈0 级 ) 


为 了 使 用 Ranklib 预 测 相 关 性 等 级 ， 需 要 做 一 些 预 处 理 来 检查 查询 词 和 文档 ， 并 生成 一 组 定量 特征 。 这 里 的 特征 可 以 是 测量 查询 、 文 档 ， 或 测量 查询 和 文档 之 间 的 关系 数值 。 


例如 ， 电 影 的 特征 可 能 包括 : 

“ 搜索 关键 字 是 否 与 标题 字段 匹配 (我 们 称 之 为 titleScore) ; 
“ 搜索 关键 字 是 否 与 描述 字段 匹配 (descScore) ; 

“ 电影 的 受 欢迎 程度 〈 受 欢迎 程度 ) ; 

: 电影 评级 (评级 ) ; 


“ 在 搜索 过 程 中 使 用 了 多 少 个 关键 字 (numKeywords) 。 


可 以 任意 决定 特征 的 编号 。 例 如 ， 特 征 1 是 查询 关键 字 在 电影 标题 中 出 现 的 次 数 ， 而 特征 2 可 能 对 应 于 电影 概览 字段 中 关键 字 出 现 的 次 数 。 


这 种 训练 集 的 通用 文件 格式 如 下 : 


等 级 qid:<queryId> 1:<featurelVal> 2:<feature2Val>http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/OEBPS/Text/... # 评 论 


举 个 例子 ， 当 查看 查询 rambo 时 ， 将 其 称 为 查询 Id 1， 注 意 以 下 特征 值 。 
“ 特征 1: Rambo 在 电影 Rambo 的 标题 中 出 现 1 次 ; 0 次 在 Turner and Hootch。 
特征 2: Rambo 在 电影 Rambo 的 描述 字段 出 现 6 次 ; 0 次 在 Turner and Hootch。 
然后 上 面 的 判断 表 就 变 成 了 : 
qid:1 1:1 2:6 
0 qid:1 1:0 2:0 


qid: 1 的 相关 电影 (Rambo) 具有 比 不 相关 电影 (Turner and Hootch) 的 匹配 更 高 的 特征 1 和 2 的 值 。 


一 个 完整 的 训练 集 用 在 成 干 上 万 或 更 多 查询 上 的 分 级 文档 来 表示 这 个 想法 : 

qid:1 1:1 2:6 
qid:1 1:0 2:0 
qid:2 1:1 2:6 
qid:2 1:1 2:6 
qid:2 1:0 2:0 


OW 人 司 下 


训练 的 目的 是 生成 一 个 函数 (这 里 也 松散 地 称 之 为 模型 ) ， 它 接受 输入 特征 1.…n 并 输出 相关 性 等 级 。 下 载 Ranklib 以 后 ， 可 以 训练 出 一 个 模型 文件 如 下 : 


> java -jar bin/RankLib.jar -train train.txt -ranker 6 -save mymodel .txt 


上 面 的 命令 训练 数据 train.txt 已 生成 LambdaMART 模 型 (Ranker 6) ， 将 模型 的 文本 表示 输出 到 mymodeltxt 中 。 一 旦 有 了 一 个 好 的 模型 ， 就 可 以 用 它 作 为 排名 函数 产生 相关 性 分 数 了 。 


5.3.3 ”Elasticsearch 学 习 排名 


elasticsearch-learning-to-rank (下 载 地 址 是 https://github.com/o19s/elasticsearch-learning-to-rank) 以 插件 方式 提供 了 让 Elasticsearch 支 持 学 习 排 名 的 方法 。 例 如 ， 要 在 Elasticsearch 5.4.0 上 
安装 插件 的 0.1.2 版 ， 请 执行 以 下 操作 : 


./bin/elasticsearch-plugin install http://es-learn-to-rank.labs.ol9s. 
com/ltr-1.0.0-RC2-es5.6.4.2zip 


让 Itr 查 询 使 用 该 模型 来 打分 。 下 面 的 dummy 是 打分 过 的 模型 ， 每 个 “特征 ”都 会 反映 出 在 训练 时 使 用 的 查询 。 


GET /foo/_search 
{ 


"query": { 
TECHFe // 学 习 排名 类 型 的 查询 
"model": { 

"stored": "dummy" // 指 定 模型 名 称 为 Qummy 
] 
"features": [{ 

"match": { 


"title": userSearchString // 指 定 查询 词 


5.4 查询 意图 识别 


户 提交 给 搜索 引擎 的 查询 都 是 有 意图 的 。 用 户 搜索 意图 一 般 有 如 下 几 个 常见 的 类 别 。 
“ 导航 类 : 用 户 不 知道 要 访问 的 网 站 的 网 址 ， 所 以 用 搜索 引擎 查找 。 例 如 ， 输 入 Elasticsearch 访 问 Elasticseatch 官 方 网 站 。 
“ 信息 类 : 想 知 道 菜 个 问题 的 答案 ， 如 “如 何 才能 减肥 ”。 


“ 资源 类 : 这 种 类 型 的 搜索 目的 是 希望 能 够 从 网 上 获取 某 种 资源 。 例 如 ， 输 入 “谷歌 浏览 器 ”下 载 这 个 软件 ， 或 者 输入 一 本 书 的 书 名 找到 购买 网 址 。 


可 以 使 用 查询 意图 模板 识别 查询 意图 。 例 如 : 


public class Intent { // 用 户 查询 意图 
public String type; // 意 图 类 型 
public PairListString args; // 参 数 


可 以 通过 查询 串 估计 查询 意图 ， 并 产生 相应 的 查询 对 象 。 生 成 查询 实例 的 代码 如 下 : 


String key 
String val 


= "keyword"; // 键 

= "Elasticsearch"; // 值 

PairListString intentArgs = new PairListString (1); 

intentArgs.addPair (key, val); 

Intent queryIntent = new Intent ("navigate", intentArgs); // 创 建 一 个 导航 类 查询 实例 


可 以 使 用 问 句 模板 匹配 用 户 查询 词 。 例 如 ， 问 名 模板 “< 菜 名 > 的 做 法 ”匹配 用 户 查询 “青椒 炒 牛 肉 的 做 法 ”， 匹 配 代码 如 下 : 


String query = "青椒 炒 牛 肉 的 做 法 "7 // 用 户 查询 串 
QueryTemplate template = new Quer Template (); 7 // 问 名 模板 引擎 
template.addWord ("青椒 炒 牛 肉 "，" 菜 名 "); // 加 入 菜 名 
String right = "< 菜 名 > 的 做 法 "7 // 加 入 问 句 模板 


template.agdd (right); 


Intent queryIntent = template.match (query); // 返 回 匹配 出 的 查询 意图 


英文 模板 recipe for$X ($X 的 菜谱 ) 匹配 用 户 查询 recipe for beef stirfry ( 炒 牛肉 的 菜谱 ) ， 这 里 的 $X 表 示 一 个 变量 。 


5.5 “图像 特征 提升 检索 体验 


越 来 越 多 的 网 页 开始 有 配 图 介绍 。 搜 索引 警 系统 可 以 提取 网 页 中 的 图 像 特征 来 提升 用 户 的 搜索 体验 。 例 如 ， 当 查询 人 名 的 时 候 ， 包 含 人 脸 图 像 的 网 页 结果 会 有 更 高 的 权重 


可 以 利用 OpenCV 中 的 级 联 分 类 器 模型 检测 图 像 中 的 人 脸 。 为 了 在 Java 中 使 用 OpenCV， 需 要 先 加 载 操作 系统 对 应 的 动态 链接 库 。 


首先 介绍 在 Windows 开 发 环境 下 使 用 OpenCV 3.x。 从 OpenCV 官 方 网 站 (http://opencv.org) 下 载 OpenCV 库 (3.x 版 ) opencv-3.x.0-vc14.exe， 然 后 在 选择 的 位 置 提取 下 载 的 OpenCV 文 件 。 为 了 
Java 调 用 OpenCV， 只 需要 两 个 文件 ， 分 别 是 位 于 \opencwbuildNava 的 opencv-3xxjar 文 件 和 位 于 \opencwbuildNava\x64 (用 于 64 位 系统 ) 或 \opencwbuildNavaNx86 (对 于 32 位 系统 ) 的 
opencv java3xx.dll 库 。 每 个 文件 的 3xx 后 缀 是 当前 OpenCV 版 本 的 快捷 方式 ， 例 如 ，OpenCy 3.0 是 300， 而 OpenCyV 3.2 是 320。 在 Eclipse 中 把 这 两 个 文件 加 到 用 户 库 中 ， 其 中 的 dll 加 到 本 地 库 路 径 下 


首先 记得 加 载 dll， 然 后 才能 使 用 OpenCV: 


System.loadLibrary (Core.NATIVE LIBRARY NAME); 
System.out .Println ("OpenCV Version:" + Core.VERSION); // 输 出 版 本 号 以 验证 是 否 加 载 成 功 


OpenCV 使 用 Mat 对 象 表 示 图 像 ，Mat 是 一 个 多 维 的 密集 数据 数组 。 因 为 OpenCV 不 支持 读 入 所 有 的 图 片 格式 ， 所 以 首先 需要 验证 是 否 正确 读 入 : 


String inputImg = "infol.jpg"; 
Mat image = Imgcodecs.imread (inputImg); 
System.out .printin("empty?"+image.empty()); // 如 果 image 是 空 的 ， 则 读 入 错误 


使 用 OpenCV 中 的 级 联 分 类 器 来 实现 人 脸 检测 的 代码 : 


// 加 载 a11 

System.loadLibrary (Core.NATIVE LIBRARY NAME); 

CascadeClassifier faceDetector = new CascadeClassifier( 
"haarcascade frontalface alt.xml"); 7 创建 训 亲 有 驳 的 级 联 分 类 器 

// 待 识别 的 图 片 读 入 到 矩阵 对 象 


Mat image = Imgcodecs.imread ("infol.jpg"); 


MatOfRect faceDetections = new MatOfRect(); // 识 别 结果 放 入 和 矩阵 数组 
faceDetector.detectMultiScale (image, faceDetections); 


System.out .Println (String.format ("Detected %s faces" 
faceDetections.toArray () .length) ); // 输 出 检测 出 来 的 人 脸 数 量 


// 把 识别 出 的 人 脸 用 矩 形 框 出 来 

for (Rect rect : faceDetections.toArray()) { 

Scalar color = new Scalar (0, 255, 0); // 用 颜色 对 象 设 定 矩形 框 的 颜色 

Imgproc.rectangle (image, new Point (rect.x, rect.y), new Point( 
rect.x + rect.width, rect.y + rect.height), color, 3); 

} 


// 写 入 新 的 图 像 文件 

String filename = "infol-FaceDetector.jpg"; 

System.out .Println(String.format ("Writing %s", filename)); 
Imgcodecs.imwrite (filename, image); 


这 里 使 用 自 带 的 模型 文件 ， 也 可 以 使 用 opencv_traincascade 自 己 训练 出 的 XML 模 型 文件 。 


为 了 支持 在 多 个 操作 系统 下 跨 平台 运行 ， 可 以 先 判断 操作 系统 类 型 ， 然 后 加 载 对 应 的 动态 链接 库 。 为 了 得 到 Linux 下 的 动态 链接 库 ， 可 以 从 源 代 码 编译 生成 libopencv java320.so， 或 者 下 载 编译 好 的 
libopencv java320.so 文 件 。 


判断 操作 系统 类 型 的 代码 如 下 : 


Public final class OsCheck { 
* 操作 系统 的 类 型 
让 
public enum OSType { 
Windows, MacOS, Linux, Other 
1 


// 缓 存 操作 系统 检测 的 结果 
protected static OSType detectedos; 


Ar 
* 从 os .name 系 统 属性 中 检测 操作 系统 并 缓存 结果 


所 returns - 检测 到 的 操作 系统 


public static OSType getOperatingSystemType() { 


if (detectedOS == null) { 
String OS = System.getProperty("os .name"，"generic") . 
toLowerCase( 
Locale.ENGLISH); 
( (OS.indexOf ("mac") 
detectedos = OSType.MacOSs; 
if (OS.indexOf ("wwin") >= 0) { 
detectedos = OSType.Windows; 
if (OS.indexOof ("nux") >= 0) { 
detectedos = OSType.Linux; 


证 
} 
} 
} 


} 
} 


return detectedos; 


} 
} 


else 
else 


else 


tf 


>= 0) || (0S.indexOf ("darwin") >= 0)) { 


detectedos = OSType.Other; 


使 用 如 下 的 代码 支持 多 操作 系统 。 


OSType osType = 0OsCheck.getOperatingSystemType () 


if (osType == OsCheck.OSType.Linux) { 
// Linux 操 作 系统 下 加 载 对 应 的 sc 文件 
libName = "libopencv java320.so"; 

} else if (osType == OsCheck.OSType.Windows) { 
// Windows 操 作 系统 下 加 载 对 应 的 dl1 文 件 
libName = "opencv java320.d11"7 


} 


// 检 测 操 作 系 统 


System.1load (new File("./lib/".concat (LibName) ) .getAbsolutePath()); 


可 以 使 


GPU+OpenCl 来 提高 OpenCV 的 运行 速度 ， 也 可 以 使 


windows-x64.jar 和 opencv.jar 的 引用 。JavaCV 检 测 人 脸 的 代码 如 下 : 


JavaCV 稳 定 地 加 载 C+ + 实现 的 动态 链接 库 。 如 果 在 64 位 的 JVM 和 Windows 下 使 


， 则 在 项 


中 添加 对 javacppjar、opencv- 


import 
import 
import 
import 
import 
import 
import 
import 


public 


public static void main (String[] args) 
String filepath = "infol.jpg"7 


org 


org. 
org. 


org 
org 


org. 
org. 


org 


cla: 


.bytedeco. 
bytedeco. 
bytedeco. 
.bytedeco. 
.bytedeco. 
bytedeco. 
bytedeco. 
.bytedeco. 


ss App { 


javacpp. 
javacpp. 
javacpp. 
javacpp. 
javacpp. 
javacpp. 
javacpp. 
javacpp. 


opencv core.Point; 
opencv_core.Rect; 
opencv_ core.RectVector; 
opencv_core.Scalar; 
opencv imgcodecs; 
opencv_core.Mat; 

opencv imgproc; 


faceDetect (filepath); // 调 用 检测 方法 


public static void faceDetect (String filepath) { 
String classifierName = "haarcascade frontalface alt.xml"; // 模 型 文件 名 
CascadeClassifier faceDetector = new CascadeClassifier 

(classifierName); 
Mat source = opencv imgcodecs.imread (filepath); 

System.out .println (“null? "+source.empty())7 

RectVector faceDetections = new RectVector () 


// 创 建 级 联 分 类 器 


opencv_objdetect .CascadeClassifier; 


{ 
// 文 件 路 径 不 要 有 和 斜 线 或 者 中 文字 符 


// 将 图 片 读 入 矩阵 对 象 中 
// 检 查 是 否 正确 读 入 
// 识 别 结果 放 入 矩阵 数组 


faceDetector.detectMultiScale (source, faceDetections); // 执 行人 脸 检测 
System.out .Println (faceDetections.size() + " faces are detected!"); // 输 出 检测 出 来 的 人 脸 数 量 
// 遍历 识别 结果 数组 
for (int i = 0; i < faceDetections.size() i++) { 
Rect r = faceDetections.get (i); // 和 矩阵 
opencv imgproc.rectangle (source, new Point(r.x(), r.y()), new 
Point (r.x() 
+ r.width(), r.y() + r.height()), new Scalar(0, 0, 255, 
0)); // 画 出 矩形 杠 


opencv imgcodecs.imwrite ("faces.png", source); 
faceDetector.close(); // 关 闭 分 类 器 


5.6 ”本章 小 结 


为 了 实现 更 好 的 搜索 准确 性 ， 可 以 改进 检索 模型 。 


检索 模型 是 由 Salton 等 人 于 20 世 纪 70 生 


BM25 源 自 20 世 纪 70 征 
20 世 纪 80 年 代 示 概率 模 和 


BM25 和 BM25F 两 种 模型 在 TREC 文 本 检索 评测 会 议 中 都 有 很 好 的 表现 ， 并 且 公认 是 目前 IR 范 围 内 最 先进 的 检索 模型 。BM25 适 用 于 没有 结构 的 全 文 检索 ， 而 BM 25F 适 有 


// 保 存 识别 出 人 脸 的 图 像 


有 好 几 个 全 文 搜索 列 的 情况 ， 可 以 使 用 相关 性 反馈 技术 改进 BM25 模 型 。 


LambdaMART 由 微软 的 Chris Burges 提 出 ， 目 前 在 工业 界 被 广泛 使 用 ， 包 括 Bing、Facebook 等 都 在 实际 业务 中 使 用 了 该 算法 。 


除了 


于 检索 文档 ， 机 器 学 习 评分 算法 还 可 以 


于 推荐 引擎 。 例 如 ， 购 物 网 站 给 访问 网 站 的 用 户 推荐 商品 。 


除了 RankLib， 还 可 以 使 用 XGBoost (网 址 是 https://github.com/dmlc/xgboost) 实现 学 习 评 分 。 


可 以 根 


搜索 相关 页 面 主 要 包括 首页 和 搜索 结果 页 。 如 果 


据 


可 以 采 


户 在 搜索 结果 页 的 行为 自动 学 习 排名 ， 调 整 搜索 系统 ， 实 现 信息 的 按 需 提供 。 


模板 引擎 输出 网 页 ， 也 可 以 采 


第 6 章 ”搜索 界面 开发 


F 代 提出 的 向 量 空间 检索 模型 发 展 而 来 。 向 量 空间 检索 模型 最 开始 以 TF 〈 词 频 ) 作为 维度 的 值 ， 然 后 发 展 成 以 TF*1DF 作 为 维度 值 。 


前 、 后 端 分 离 的 微服 务 架构 开发 搜索 界面 。 微 服务 架构 可 以 采用 Spring Boot 实 现 。 


F 代 伦敦 城市 大 学 第 一 个 实现 这 个 函数 的 系统 一 一 Okapi 信 息 检索 系统 。 它 是 基于 20 世 纪 70 ~ 80 年 代 由 Stephen E.Robertson 和 Karen Sp 关 rck Jones 等 人 开发 的 概率 检索 框架 。 
型 〈 特 别 是 以 Okapi 系 统 为 代表 的 BM25 系 列 算法 ) 出 现 并 逐渐 替代 了 经 典 模型 在 信息 检索 模型 领域 的 地 位 ， 成 为 新 兴 的 且 功 能 强大 、 表 现 越 来 越 出 色 的 模型 。 


结构 化 的 文档 检索 ， 即 适 上 


户 输入 的 搜索 词 是 空 的 ， 则 可 以 显示 一 个 对 信息 分 类 导航 的 页 面 。 首 页 主要 包含 搜索 条 区 域 。 此 外 还 可 以 包含 一 些 推荐 信息 及 当前 热门 信息 。 


6.1 使 用 Searchkit 实 现 搜索 界面 


Searchkit 是 一 套 React 构 建 的 UI 组 件 ， 目 标 是 使 用 声明 式 的 组 件 帮助 用 户 快速 创建 漂亮 的 搜索 应 用 程序 ， 而 不 是 使 用 户 先 成 为 一 个 Elasticsearch 专 家 。 


Searchkit 推 荐 的 项 目 设置 使 用 Webpack 和 TypeScript，Searchkit 还 支持 与 E56 (ECMAScript 6) /Webpack 一 起 使 用 。 建 议 通过 npm 安 装 Searchkit。 命 令 如 下 : 


# yum install npm 


建议 使 用 Webpack 进 行 Searchkit 的 SRC、CSS 和 静态 资源 的 模块 依赖 管理 。 需 要 SCSS， 文 件 加 载 器 才能 正确 解决 Searchkit 的 依赖 关系 。 命 令 如 下 : 


# npm install searchkit --save 


如 果 碰 到 OpenssL 的 版 本 问题 ， 可 以 运行 : 


# Yum Update openssl 


使 用 Webpack/ES6 导 入 相关 模块 : 


import { 
SearchBox, // 搜 索 框 
Hits, // 命 中 结果 
Pagination // 分 页 


} from "searchkit"; 


Searchkit 库 脚本 可 通过 bower 或 jsDelivr CDN 获 得 。bower 是 一 个 客户 端 技术 的 软件 包 管理 器 ， 和 npm 类 似 。 通 过 bower 安 装 Searchkit 命 令 如 下 : 


# bower install searchkit --save 


CDN 脚 本 中 相关 的 JS 和 CSS 文 件 如 下 : 


<script type="text/javascript" src="//cdn.jsdelivr.net/react/0.14.7/ 

react .min.js"></script> 

<script type="text/javascript" 
src="//cdn.jsdelivr.net/react/0.14.7/react-dom.min.js"></script> 

<script type="text/javascript" src="//cdn.jsdelivr.net/searchkit/0.10.0/ 

bundle.js"></script> 

<link rel="stylesheet" type="text/css" href="//cdn.jsdelivr.net/ 

searchkit/0.10.0/theme.css"> 


下 面 是 将 Searchkit 连 接 到 本 地 Elasticsearch 的 一 个 例子 。 如 果 碰 到 一 个 访问 控制 (Cors) 相关 的 错误 ， 则 需要 添加 以 下 内 容 到 config/elasticsearch.yml 文 件 中 。 


http.cors.enabled : true 

http.cors.allow-origin : "“*" 

http.cors.allow-methods : OPTIONS, HEAD, GET, POST, PUT, DELETE 
http.cors.allow-headers : X-Requested-With,X-Auth-Token,Content-Type, 
Content-Length 


为 了 使 用 Searchkit， 需 要 用 一 个 像 主 机 URL 一 样 的 Elasticsearch 去 实例 化 一 个 SearchkitManager。 然 后 包装 一 个 Searchkit 应 用 程序 并 呈现 给 页 面 。 通 过 配置 创建 Searchkit Manager 对 象 如 下 : 


const searchkit = 
new SearchkitManager ("http://localhost:9200/") // 实 例 化 SearchkitManager 


<SearchkitProvider searchkit={searchkit}> // 使 用 Searchkit 的 标签 


</SearchkitProvider> 


Express 是 一 个 简洁 而 灵活 的 node.js Web 应 用 框架 。 这 里 用 node express 构 建 了 一 个 叫做 searchkit-express 的 插件 。 这 个 代理 插件 (Searchkit-express) 通过 服务 器 将 搜索 请 求 代理 到 Elasticsearch 
这 样 能 验证 服务 器 上 的 请 求 ， 能 够 在 请 求 到 达 Elasticsearch 实 例 之 前 使 用 路 由 器 选项 应 用 额外 的 过 滤器 进行 过 滤 。 


代理 连接 的 配置 如 下 : 


const searchkit = new SearchkitManager("/") // 创 建 SearchkitManager 对 象 
<SearchkitProvider searchkit={searchkit}> 


</SearchkitProvider> 


回 


使 用 电影 网 址 实例 化 一 个 SearchkitManager。 然 后 包装 一 个 Searchkit 应 用 程序 并 呈现 给 页 


import * as React from "react"; // 导 入 React 模 块 
import * as ReactDOM from "react-dom"; // 导 入 ReactDOM 模 块 
import { 


SearchkitManager, SearchkitProvider 
} from "searchkit"; // 导 入 SearchkitManager 和 SearchkitProvider 模 块 


const searchkit = new SearchkitManager ("http://localhost:9200/movies"); 


// 将 模板 转 为 HTML 语 言 ， 并 插入 指定 的 DOM 节 点 
ReactDOM.render (( 
<SearchkitProvider searchkit={searchkit}> 
<div> 
<SearchBox/> 
<Hits/> 
</div> 
</SearchkitProvider> 
), document.getElementById('root')) // 根 据 ID 查 找 DOM 节 点 


搜索 框 组 件 是 用 户 输入 搜索 查询 的 地 方 。 例 如 : 


import { 
SearchBox, 
SearchkitComponent 
} from "searchkit"; // 导 入 SearchkitManager 和 SearchkitProvider 模 块 


class App extends SearchkitComponent { 


render (){ 


<div> 
<SearchBox 
searchonChange={true} 
queryOptions={ {analyzer:"standard"}} // 查 询 所 用 的 分 析 器 "standard" 
queryFields={["title^5", "languages", "text"]}/> // 查 询 列 : 标题 、 语 言 和 文本 列 
</div> 


了 


SearchBox 组 件 对 外 公开 的 属性 列表 如 下 。 

“searchOnChange (布尔 值 ) : 可 选 的 属性 ， 在 用 户 输入 时 更 新 搜索 结果 ， 默 认为 filse。 如 果 和 prefixQueryFields 一 起 使 用 ， 可 以 在 用 户 输入 时 获得 更 好 的 搜索 结果 。 
“ gueryBuilder (函数 ) : 用 于 创建 发 送 给 Elasticseatch 的 查询 ， 默 认为 SimpleQuetryStting。 

“ queryFields (数组 ) : 可 选 的 属性 ， 在 其 中 搜索 一 组 Elasticsearch 字 段 ， 可 以 指定 特定 字段 的 加 权 ， 默 认 搜索 为 _al。 

. queryOptions (对 象 ) : 可 选 的 属性 ， 查 询 字符 囊 的 选项 对 象 。 

“ prefixQueryFields (数组 ) : 可 选 ， 在 其 中 搜索 一 组 Elasticseatch 字 段 ， 可 以 指定 特定 字段 的 加 权 ， 默 认 搜 索 为 _ 中。 只 有 在 seatchOnChange 为 true 时 才 会 使 用 。 

: prefixQueryOptions (对 象 ) : 可 选 ，MultiMatchQuery 的 选项 对 象 。 

. mod (字符 串 ) : 可 选 ， 一 个 自 定义 的 BEM (Block-Element-Modifier) 容器 类 。 

“ translations (对 象 ) : 希望 禾 盖 的 翻译 对 象 。 

“ Placeholder (字符 囊 ) : 输入 框 的 占 位 符 。 

“ searchThrottleTime (数字 ) : 默认 是 200 毫 秒 ， 当 searchOnChange 属 性 为 true 时 使 用 。 对 Elasticsearch 的 搜索 只 会 在 每 隔 searchThrottleTime 所 设 定 的 时 间 就 被 调用 一 次 。 
“ blurAction (搜索 | 恢复 ) : 当 searchOnChange={false} 时 ， 配 置 搜索 框 失去 焦点 时 的 SearchBox 行 为 。 默 认为 搜索 。 


命中 组 件 〈 即 Hits 组 件 ) 显示 Elasticsearch 的 结果 。 要 定制 每 个 结果 ， 则 需要 实现 一 个 React 组 件 并 传递 给 itemComponent 属 性 。 该 组 件 将 从 搜索 结果 中 收 到 一 个 命中 对 象 ， 其 中 包含 result._source 
属性 ， 以 及 索引 的 存储 字段 。 用 法 示例 如 下 : 


import { get } from "lodash"; // 导 入 Lodash 工 具 库 


import { 
Hits, 
SearchkitComponent， 
HitItemProps 
} from "searchkit"; // 导 入 Hits、SearchkitComponent 和 HitItemProps 组 件 


// 定 义 命中 项 
const HitItem = (props) => ( 
<div className={props.bemBlocks.item() .mix (props.bemBlocks.container ("item"))}> 
<img className={props.bemBlocks.item("poster")} src={props.result. source.poster}/> 
<div className={props.bemBlocks.item("title")} dangerouslySetInnerHTML= {{_ html: get (props.result,"highlight.title",props.result. source.title)} }></div> 
</div> 
) 


class App extends SearchkitComponent { 


render () { // 显 示 命中 结果 
<div> 
// 每 页 显示 50 条 记录 
<Hits hitsPerPage={50} highlightFields={["title"]} sourceFilter= {["title", "poster", "imdbId"]} 
mod="sk-hits-grid" itemComponent={HitItem}/> 
</div> 


上 
} 


Hits 组 件 对 外 公开 的 属性 列表 如 下 。 

“hitsPerPage (数值 ) : 每 页 显示 的 结果 数量 。 

“ highlightFields (数组 ) : 高 亮 显示 的 字段 数组 ， 任 何 高 亮 匹 配 都 会 在 resulthighlight[fieldName] 中 返回 。 

“ customHighlight (对 象 ) : 可 选 属性 ， 允 许 任何 自 定义 高 亮 显示 行为 来 控制 片段 数量 、 片 段 大 小 和 高 亮 器 ， 作 为 高 亮 的 值 直 接 传 递 给 Elasticsearch。 
“ mod (字符 串 ) : 可 选 属性 。 一 个 自 定义 的 BEM 容 器 类 。 

“itemComponent (React 组 件 ) : 用 于 每 个 命中 演 染 的 React 组 件 。 

“ listComponent (React 组 件 ) : 如 果 要 控制 结果 的 完整 列表 ， 请 使 用 这 个 React 组 件 。 

“ sourceFilter (字符 串 | 布尔 值 | 数组 ) : 发 送 给 Elasticsearch 的 源 过 滤器 参数 ， 用 于 减少 结果 中 的 _source 数 据 。 


“scrollTo (字符 串 | 布 尔 值 ) : 当 结果 发 生变 化 时 ， 使 用 scrollTo 属 性 中 传递 的 jQuery 样式 选择 器 会 滚动 到 元 素 的 顶部 。 如 果 为 true， 则 使 用 body 作 为 选择 器 。 默 认 值 为 true。 如 果 为 划 se， 则 在 泻 染 新 结果 
时 不 会 滚动 。 可 以 通过 比较 命中 的 _id 字 段 和 新 的 结果 来 确定 一 个 变化 。 


如 果 当 前 查询 没有 得 到 Elasticsearch 的 结果 时 ， 将 显示 NoHits 组 件 。NoHits 可 能 会 提供 帮助 用 户 调整 搜索 以 返回 结果 的 操作 。Elasticsearch 响 应 错误 时 ，NoHits 将 显示 错误 。 可 以 通过 在 组 件 或 
errorComponent 属 性 中 传 入 React 组 件 来 覆盖 NoHits 的 显示 。 


分 页 组 件 提供 了 进入 下 一 页 和 上 一 页 的 功能 。 示 例如 下 : 


import { 
Pagination, // 导 入 分 页 组 件 
SearchkitComponent 

} from "searchkit"; 


class App extends SearchkitComponent { 


render (){ 
<div> 
<Pagination showNumbers={true}/> // 显 示 分 页 链接 
</div> 
} 
} 


6.2 Spring Boot 入 门 


Spring Boot 应 用 可 以 直接 由 Maven 的 plugin 打 包 成 jar 包 。 在 部 署 时 ， 直 接 使 用 java-jar application.jar 启 动 Spring Boot。 


首先 通过 命令 行 下 载 Spring Boot 入 门 源 代码 : 


# git clone https://github.com/spring-guides/gs-spring-boot.git 


然后 切换 到 完整 的 例子 目录 : 


# cd gs-spring-boot/complete/ 


使 用 Maven 构 建 项 目 并 运行 : 


# mn package && java -jar target/gs-spring-boot-0.1.0.jar 


然后 在 另外 一 个 控制 台 下 查看 启动 的 服务 。 


# http http://localhost:8080/ 


为 了 加 快 下 载 速度 ， 修 改 pom.xml 中 央 仓 库 地 址 为 : 


http://maven.aliyun.com/nexus/content/groups/public/。 


如 果 是 在 Windows 下 ， 则 可 以 用 如 下 命令 构建 JAR 文 件 : 


>./mvnw clean package 


然后 运行 构建 出 来 的 这 个 JAR 文 件 : 


>java -jar target/gs-spring-boot-0.1.0.jar 


如 是 在 Eclipse 中 开发 Spring Boot 项 目 ， 其 中 XML 格 式 的 .classpath 文 件 中 的 classpathentry 标 签 保存 了 各 种 类 路 径 信 息 。 


classpathentry 标 签 的 kind 属 性 表示 类 路 径 的 类 型 。 其 中 ，src 类 型 表示 源 代码 类 型 的 类 路 径 ; con 类 型 表示 classpath 容 器 。classpathentry 标 签 的 path 属 性 表示 路 径 ， 且 使 用 的 路 径 都 是 相对 
于 .classpath 路 径 的 。 


.Classpath 文 件 内 容 如 下 : 


<?xml Version="1.0" encoding="UTF-8"?> 
<classpath> 
<classpathentry kind="con" path="org.eclipse.jdt.launching.JRE CONTAINER"/> 
<classpathentry kind="con" 
path="org.eclipse.m2e.MAVEN2 CLASSPATH CONTAINER"> 
<attributes> 
<attribute name="maven.pomderived" value="true"/> 
</attributes> 
</classpathentry> 
<classpathentry kin 
<classpathentry kin 
<classpathentry kin 
</classpath> 


src" path="resources"/> 
src" path="src"/> 
"output" path="target/classes"/> 


在 项 目 中 引入 依赖 : 


<dependency> 
<groupId>org.springframework.boot</groupId> 
<artifactId>spring-boot-starter-web</artifactId> 
<version>1.5.6.RELEASE</version> 

</dependency> 


让 首页 可 以 访问 index.html: 


@Configuration 
public class WebMvcConfiguration extends WebMvcConfigurerAdapter { 


QOverride 
Public void addViewControllers (ViewControllerRegistry registry) { 
// 控 制 器 注册 表 中 增加 视图 控制 器 
registry.addViewController ("/") .setViewName ("index.html"); 
// 设 置 最 高 的 优先 级 
registry.setOrder (Ordered.HIGHEST PRECEDENCE); 


在 IDEA 中 开发 Spring Boot 应 用 ， 可 以 新 建 一 个 Maven 项 目 ， 然 后 创建 一 个 控制 类 : 


package com.example.demo; 


import org.springframework.web.bind.annotation.RestController; 
import org.springframework.web.bind.annotation.RequestMapping; 


@RestController 
public class HelloController { 


Q@RequestMapping ("/") 
public String index() { 
return "Greetings from Spring Boot!"; 


} 


再 创建 一 个 Application 类 : 


Package com.example.demo; 
import java.util.Arrays; 


import org.springframework.boot.CommandLineRunner; 
import org.springframework.boot.SpringApplication; 


import org.springframework.boot.autoconfigure.SpringBootApplication; 


import org.springframework.context.ApplicationContext; 
import org.springframework.context .annotation.Bean; 


@SpringBootApplication 
public class Application { 


public static void main (String[] args) { 
SpringApplication.run (Application.class, args); 


@Bean 


Public CommandLineRunner commandLineRunner (ApplicationContext ctx) { 


return args -> { 


System.out .Println("Let's inspect the beans provided by Spring Boot:"); 


String[] beanNames = ctx.getBeanDefinitionNames () 7 


Arrays.sort (beanNames); 
for (String beanName : beanNames) { 
System.out .Println (beanName); 


} 


静态 页 面 或 者 JS、CSS、 


中 | 


片 之 类 的 静态 资源 可 以 放 入 resources 


6.2.1 可 执行 的 WAR 


录 的 public 目 录 下 。 


Spring Boot Web 应 用 程序 可 以 打包 在 JAR 文 件 中 ， 也 可 以 打包 在 WAR 文 件 中 。 在 这 两 个 选项 中 ， 嵌 入 的 Servlet 容 器 (默认 为 Tomcat) 也 可 以 包含 在 包 中 ， 以 便 将 归档 文件 (JAR 或 WAR) 作为 独立 


的 应 用 程序 来 执行 。 只 有 当 我 们 使 用 spring-boot maven 插 件 时 ， 才 可 能 实现 归档 文件 独立 执行 的 功能 。 


下 面 首先 创建 一 个 传统 的 Maven WAR 文 件 并 将 其 部 署 到 Tomcat 服 务 器 上 ， 然 后 使 用 spring-boot 插 件 创建 一 个 可 执行 WAR 文 件 ， 并 将 其 部 署 到 服务 器 上 并 执行 。 我 们 将 讲解 传统 的 WAR 文 件 与 可 执 


行 WAR 文 件 在 创建 和 使 用 上 的 区 别 ， 并 将 分 析 由 spring-boot maven 揪 件 创建 的 NAR 文件 的 结构 。 


下 面 创建 一 个 以 JSP 作 为 展示 层 的 Web 示 例 项 目 。 


@SpringBootApplication 


public class WarStructureExample extends SpringBootServletInitializer { 


QOverride 


protected SpringApplicationBuilder configure (SpringApplicationBuilder 


builder) { 
return builder.sources (WarStructureExample.class); 


} 


public static void main (String[] args) { 


SpringApplication.run (WarStructureExample.class, args); 


// 设 置 SpringApplication 的 源 
} 


@Controller 
public static class MyController { 


QRequestMapping ("/") 
public String handler (Model model) { 
model .addAttribute ("msg", 
"a war structure example"); 
return "myPage"7 


在 上 面 的 代码 中 ， 主 类 WarStructureExample 扩 展 org.springframework.boot.web.support.SpringBootServletlnitializer， 该 类 进而 扩展 WebApplicationlnitializer 接 口 。WebApplication 


Initializer 接 口 基于 Servlet 3.0 ServletContainerlnitializer 概 念 。 


这 个 扩展 的 目的 是 通过 WebApplicationlnitializer 接 口 设 置 Servlet 上 下 文 。 另 外 ， 它 要 求 子 类 设置 SpringApplication 的 源 (使 
调用 SpringApplication.run () ， 进 行 自动 配置 和 应 用 程序 级 别 的 Bean 连 接 等 。 这 种 安排 只 在 应 


程序 或 可 执行 JAR 或 WAR 文 件 中 那样 执行 。 


src/main/webapp/WEB-INF/pages/myPage.jsp 内 容 如 下 : 


@SpringBootApplication 类 注解 的 类 ) ， 以 便 它 可 以 用 一 个 有 效 的 源 


程序 作为 WAR 文 件 部 署 在 servlet 容器 中 时 才 需 要 。 在 Web 容 器 中 ，main () 方法 不 能 像 在 独立 的 应 用 


<h2>From JSP page </h2> 

<%@ page language="java" 
contentType="text/html; charset=ISO-8859-1" 
pageEncoding="ISO-8859-1"%> 

<html> 

<body> 
Message : ${msg} 

</body> 

</html> 


配置 文件 src/main/resources/application.properties 中 的 内 容 如 下 : 


spring.mvc.view.prefix= /WEB-INF/pages/ 
spring.mvce.view.suffix= .jsp 


如 果 想 通过 Maven 普 通 包 的 目标 而 不 是 通过 Spring Boot 插 件 创建 一 个 WAR 文 件 ， 那 么 就 不 需要 Spring Boot 播 件 。 这 个 WAR 文 件 当然 是 不 可 执行 的 ， 但 可 以 部 署 到 一 个 运行 Servlet 容 器 的 服务 器 上 。 


pom.xml 文 件 内 容 如 下 : 


<project http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/O0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources 
<modelVersion>4.0.0</modelVersion> 


<groupId>com. lietu.example</groupId> 
<artifactId>traditional-war</artifactId> 
<version>1 .0-SNAPSHOT</version> 
<packaging>war</packaging> 


<parent> 
<groupId>org.springframework.boot</groupId> 
<artifactId>spring-boot-starter-parent</artifactId> 
<version>1.4.3.RELEASE</version> 

</parent> 


<properties> 
<java.version>1.8</java.version> 
</properties> 


<dependencies> 
<dependency> 
<groupId>org. springframework.boot</groupId> 
<artifactId>spring-boot-starter-web</artifactId> 
</dependency> 
<dependency> 
<groupId>org. springframework.boot</groupId> 
<artifactId>spring-boot-starter-tomcat</artifactId> 
<scope>provided</scope> 
</dependency> 
</dependencies> 
</project> 


spring-boot-starter-parent 项 目的 pom.xml 文 件 默认 配置 使 用 maven-war-plugin， 所 以 在 pox.xml 中 只 需要 设置 packaging 的 值 为 war 即 可 。 


此 外 ， 随 spring-boot-starter-web 项 目 一 起 提供 的 嵌入 式 Servlet 容 器 可 能 会 干扰 将 部 署 WAR 文 件 的 Servlet 容 器。 为 了 避免 这 种 情况 ， 需 要 将 默认 的 依赖 范围 重 写 为 provided， 这 样 最 终 的 WAR 文 件 
就 不 会 包含 谋 入 的 Tomcat 服 务 器 。 


打包 WAR 文 件 。 首 先 查看 打包 前 的 文件 目录 结构 : 


D:Nexamples\traditional-war>mvn -q clean 


然后 使 用 tree 命 令 查 看 文件 目录 结构 : 


D:\examples\traditional-war>tree /A /F 
Folder PATH listing for volume Data 
Volume serial number is 00000051 68F9:EDFA 


Dy 
| pom. xml 
| 
Nate 
\-—-main 
+---java 
|  \---com 
| \---logicbig 
| \---example 
| WarstructureExample.java 
| 
+---resources 
| application.properties 
| 
-webapp 
\---WEB-INF 
\---pages 
myPage.jsp 
执行 打包 : 


D:\examples\traditional-war>mvn -q package 


然后 查看 文件 目录 结构 在 打包 后 的 变化 : 


D:\examples\traditional-war>tree /A /F 
Folder PATH listing for volume Data 
Volume serial number is 00000024 68F9:EDFA 


Dy 
pom.xml 
-Sr 
Ni 
+---java 
| \---com 
| \---logicbig 
| \---example 
| WarStructureExample.java 
| 
+---resources 
| application.properties 
\---webapp 
\---WEB-INF 
\---pages 
myPage.jsp 
\---target 


traditional-war-1.0-SNAPSHOT .war 


+---classes 

| application.properties 

| 

Ne 

\---logicbig 
\---example 

WarSstructureExample$MyController.class 
WarStructureExample.class 


+---generated-sources 
\---annotations 
+---maven-archiver 
pom.properties 


+---maven-status 
\---maven-compiler-plugin 
\---compile 
\---default-compile 
createdFiles.1st 
inputFiles.1st 


\---traditional-war-1.0-SNAPSHOT 
十 -一 -META-INF 
\--—-WEB-INF 
+---classes 
| | application.properties 


| 
N===Com 
\=—-logicbig 
\---example 
WarSstructureExample$MyController.class 
WarSstructureExample.class 


es 

classmate-1.3.3.jar 
hibernate-validator-5.2.4.Final .jar 
jackson-annotations-2.8.5.jar 
jackson-core-2.8.5.jar 
jackson-databind-2.8.5.jar 
jboss-logging-3.3.0.Final.jar 
jcl-over-slf4j-1.7.22.jar 
JUl-to-S81f4j=L;7.22.jar 
log4j-over-slf4j-1.7.22.jar 
logback-classic-1.1.8.jar 
logback-core-1.1.8.jar 
sl1f4j-api-1.7.22.jar 

snakeyam]l-1.17.jar 
spring-aop-4.3.5.RELEASE .jar 
spring-beans-4.3.5.RELEASE.jar 
spring-boot-1.4.3.RELEASE.jar 
spring-boot-autoconfigure-1.4.3.RELEASE.jar 
spring-boot-starter-1.4.3.RELEASE.jar 
spring-boot-starter-logging-1.4.3.RELEASE.jar 
spring-boot-starter-web-1.4.3.RELEASE.jar 
spring-context-4.3.5.RELEASE.jar 
spring-core-4.3.5.RELEASE.jar 
spring-expression-4.3.5.RELEASE .jar 
spring-web-4.3.5.RELEASE .jar 
spring-webmvc-4.3.5.RELEASE.jar 
validation-api-1.1.0.Final.jar 


\---pages 
myPage.jsp 
在 Tomcat 服 务 器 上 部 署 WAR: 


(1) 单 击 <tomcat-home>/bin/startup.bat 文 件 ， 启 动 Tomcat 服 务 器 。 


(2) 进入 localhost: 8080 的 Tomcat 主 页 面 ， 单 击 Manager App 按 钮 。 如 果 要 求 输入 用 户 名 和 密码 ， 则 输入 相应 的 用 户 名 和 密码 。 现 在 到 达 “Tomcat web 应 用 程序 管理 器 ”页 面 。 


(3) 在 “部 署 WAR 文 件 ” 部 分 (接近 底部 ) 下 “选择 文件 ”， 此 时 必须 选择 在 项 目 目标 文件 夹 下 创建 的 WAR 文 件 。 单 击 “ 部 署 ”按钮 ， 将 WAR 文 件 部 署 到 服务 器 上 。 


(4) 在 Applications 表 中 (靠近 顶部 ) 找到 “/traditional-war-1.0-SNAPSHOT"” 并 单 击 ， 会 看 到 JSP 模 板 显示 出 的 输出 。 


使 用 Spring Boot 揪 件 打 包 WAR。 将 使 用 与 上 面相 同 的 主 类 ， 在 pom.xml 文 件 中 会 有 一 些 重要 的 改变 。 这 里 要 添加 Spring Boot Maven 揪 件 ， 代 码 如 下 : 


<project http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/O0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources 
<modelVersion>4.0.0</modelVersion> 


<groupId>com. lietu.example</groupId> 
<artifactId>boot-war</artifactId> 
<version>1 .0-SNAPSHOT</version> 
<packaging>war</packaging> 


<parent> 
<groupId>org.springframework.boot</groupId> 
<artifactId>spring-boot-starter-parent</artifactId> 
<version>1.4.3.RELEASE</version> 

</parent> 


<properties> 
<java.version>1.8</java.version> 
</properties> 
<dependencies> 
<dependency> 
<groupId>org. springframework.boot</groupId> 
<artifactId>spring-boot-starter-web</artifactId> 
</dependency> 
<dependency> 
<groupId>org. springframework.boot</groupId> 
<artifactId>spring-boot-starter-tomcat</artifactId> 
<scope>provided</scope> 
</dependency> 
<dependency> 
<groupId>org.apache .tomcat .embed</groupId> 
<artifactId>tomcat-embed-jasper</artifactId> 
<scope>provided</scope> 
</dependency> 
</dependencies> 


<build> 
<plugins> 
<plugin> 
<groupId>org.springframework.boot</groupId> 
<artifactId>spring-boot-maven-plugin</artifactId> 
<version>1.4.3.RELFEASE</version> 
<executions> 
<execution> 
<goals> 
<goal>repackage</goal> 
</goals> 
</execution> 
</executions> 
</plugin> 
</plugins> 
</build> 
</project> 


请 注意 ， 还 需要 添加 额外 的 tomcat-embed-jasper (一 个 Core Tomcat 实 现 ) 依赖 项 ， 这 个 只 有 在 运行 可 执行 文件 WAR 的 时 候 才 需要 。 


打包 WAR 文 件 : 


D:\examples\boot-war>mvn -q clean 


D:\examples\boot-war>tree /A /F 
Folder PATH listing for volume Data 
Volume serial number is 000000F6 68F9:EDFA 


Dss 
| Pom.xml 
| 
N=--S5G 
\---main 
a 
| \---com 


\---logicbig 
\---example 
WarStructureExample.java 


-resources 
li application.properties 


\---webapp 
\---WEB-INF 
\---pages 
myPage.jsp 


D:\examples\boot-war>mvn -q package 


D:\examples\boot-war>tree /A /F 

Folder PATH listing for volume Data 
Volume serial number is 00000074 68F9:EDFA 
Ds 


pom.xml 


+---SIC 
\---main 
A 
| Meepom 
\---logicbig 
\---example 
WarSstructureExample.java 


| 
| 
| 
| 
+---resources 
|| application.properties 


| 
\---webapp 


\--—-WEB-INF 
\---pages 
myPage.jsp 
target 


boot-war-1 .0-SNAPSHOT .war 
boot-war-1 .0-SNAPSHOT .war.original 


+---boot-war-1.0-SNAPSHOT 
+-—~META~INF 
\---WEB-INF 
+---Classes 
| application.properties 
| 
人 
\---logicbig 
\---example 
WarSstructureExample$MyController.class 
WarStructureExample.class 


下 和 

classmate-1.3.3.jar 
hibernate-validator-5.2.4.Final.jar 
jackson-annotations-2.8.5.jar 
jackson-core-2.8.5.jar 
jackson-databind-2.8.5.jar 
jboss-logging-3.3.0.Final.jar 
jcl-over-slf4j-1.7.22.jar 
jul-to-slf4j-1.7.22.jar 
lo0g4j-over-slf4j-1.7.22.jar 
logback-classic-1.1.8.jar 
logback-core-1.1.8.jar 
sl1f4j-api-1.7.22.jar 

snakeyaml-1.17.jar 
spring-aop-4.3.5.RELEASE .jar 
spring-beans-4.3.5.RELEASE.jar 
spring-boot-1.4.3.RELEASE.jar 
spring-boot-autoconfigure-1.4.3.RELEASE.jar 
spring-boot-starter-1.4.3.RELEASE .jar 
spring-boot-starter-logging-1.4.3.RELEASE .jar 
spring-boot-starter-web-1.4.3.RELEASE.jar 
spring-context-4.3.5.RELEASE.jar 
spring-core-4.3.5.RELEASE .jar 
spring-expression-4.3.5.RELEASE .jar 
spring-web-4.3.5.RELEASE .jar 
spring-webmvc-4.3.5.RELEASE.jar 
validation-api-1.1.0.Final.jar 


\---pages 
myPage.jsp 


-Classes 

| application.properties 

| 

\---com 

\---logicbig 
\---example 

WarSstructureExample$MyController.class 
WarStructureExample.class 


+---generated-sources 
\---annotations 
+---maven-archiver 
pom.properties 


\---maven-status 
\---maven-compiler-plugin 
\---compile 
\---default-compile 
createdFiles.1st 
inputFiles.1st 


D: \examples\boot-war> 


boot-war-1.0-SNAPSHOT 文 件 夹 下 的 内 容 是 原始 的 WAR 文 件 内 容 。 


要 查看 spring-boot 插 件 增强 的 WAR 文 件 ， 必 须 提取 boot-war-1.0-SNAPSHOT.war 文 件 。 代 码 如 下 : 


D: \examples\boot-war>md temp 

D: \examples\boot-war>cd temp 

D:\examples\boot-war\temp>jar -xf http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/OEBPS/Text/..\target\boot-war-1.0-SNAPSHOT .war 
D: \examples\boot-war\temp>tree /A /F 

Folder PATH listing for volume Data 

Volume serial number is 000000B9 68F9:EDFA 

Ds 


+--—-META-INF 
| MANIFEST .MF 


-maven 
\---com.lietu.example 
\---boot-war 
pom.properties 


pom.xml 
+==-Org 
\---springframework 
-Go 
\---loader 


| ExecutableArchiveLauncher$1 .class 
| ExecutableArchiveLauncher.class 

| JarLauncher.class 

| LaunchedqURLClassLoaderS$1.class 
LauncheqdqURLClassLoaqder .class 

| Launcher .class 

| MainMethodRunner .class 
PropertiesLauncher$1.class 


PropertiesLauncher.class 
WarLauncher .class 


+---archive 

Archive$Entry.class 
Archive$EntryFilter.class 
Archive.class 
ExplodedArchive$1.class 
ExplodedArchive$FileEntry.class 


class 


ExplodedArchive.class 
JarFileArchive$EntryIterator.class 
JarFileArchive$JarFileEntry.class 
JarFileArchive.class 


4-0ata 
ByteArrayRandomAccessData.class 


RandomAccessData.class 


RandomAccessDataFile$FilePool.class 
RandomAccessDataFile.class 


二 = 二 = 人 

AsciiBytes.class 

Bytes.class 
CentralDirectoryEndRecord.class 
CentralDirectoryFileHeader.class 
CentralDirectoryParser.class 
CentralDirectoryVisitor.class 
FileHeader.class 

Handler.class 

JarEntry.class 
JarEntryFilter.class 
JarFile$1.class 

JarFile$2.class 

JarFile$3.class 
JarFile$JarFileType.class 
JarFile.class 
JarFileEntries$1.class 
JarFileEntries$EntryIterator.class 
JarFileEntries.class 
JarURLConnection$1.class 
JarURLConnection$JarEntryName.class 
JarURLConnection.class 
ZipInflaterIinputStream.class 


eet 
SystemPropertyUtils.class 


\--—-WEB-INF 
+---Cclasses 
| application.properties 


classmate-1.3.3.jar 
hibernate-validator-5.2.4.Final.jar 
jackson-annotations-2.8.5.jar 
jackson-core-2.8.5.jar 
jackson-databind-2.8.5.jar 
jboss-logging-3.3.0.Final.jar 
jcl-over-slf4j-1.7.22.jar 

本 生生 全 人 站 让 
log4j-over-slf4j-1.7.22.jar 
logback-classic-1.1.8.jar 
logback-core-1.1.8.jar 
sl1f4j-api-1.7.22.jar 

snakeyaml-1.17.jar 
spring-aop-4.3.5.RELEASE.jar 
spring-beans-4.3.5.RELEASE.jar 
spring-boot-1.4.3.RELEASE.jar 
spring-boot-autoconfigure-1.4.3.RELEASE.jar 
spring-boot-starter-1.4.3.RELEASE.jar 
spring-boot-starter-logging-1.4.3.RELEASE.jar 
spring-boot-starter-web-1.4.3.RELEASE.jar 
spring-context-4.3.5.RELEASE.jar 
spring-core-4.3.5.RELEASE .jar 
spring-expression-4.3.5.RELEASE .jar 
spring-web-4.3.5.RELEASE.jar 
spring-webmvc-4.3.5.RELEASE.jar 
validation-api-1.1.0.Final.jar 


+---1ib-provided 

ecj-4.5.1.jar 
spring-boot-starter-tomcat-1.4.3.RELEASE.jar 
tomcat-embed-core-8.5.6.jar 
tomcat-embed-el-8.5.6.jar 
tomcat-embed-jasper-8.5.6.jar 
tomcat-embed-websocket-8.5.6.jar 


\---pages 
myPage.jsp 


D:\examples\boot-war\temp> 


PropertiesLauncher$ArchiveEntryFilter.class 
PropertiesLauncher$FilteredArchive$1.class 
PropertiesLauncher$FilteredArchive.class 
PropertiesLauncher$PrefixMatchingArchiveFilter.class 


ExplodedArchive$FileEntryIterator.class 


RandomAccessData$ResourceAccess.class 


\--—-com 
\---logicbig 
\---example 
WarSstructureExample$MyController.class 
WarStructureExample.class 
+---1ib 


ExplodedArchive$FileEntryIterator$EntryComparator. 


RandomAccessDataFile$DataInputStream.class 


在 上 面 的 输出 中 ， 下 面 的 结果 是 显而易见 的 。 


“ 'provided' 依 赖 放置 在 "WEB-INF/lib-provided' 中 。 这 是 为 了 避免 WAR 部 署 在 Servlet 容 器 中 时 发 生 任何 > 


: 只 有 当 作为 应 用 程序 执行 WAR 文 件 并 使 用 嵌入 式 服务 器 时 ， 才 会 使 用 WEB-INFVlib-provided'jar。 通 


常 在 命令 行 上 使 用 java- jar 将 WAR 文 件 作 为 应 用 程序 来 运行 。 


有 一 个 特殊 的 文件 夹 : org/springframework/boot/loader/， 
INF/Manifest.MF 文 件 中 确认 这 一 点 。 


中 包 


从 WAR 文 件 启动 可 执行 应 


程序 的 类 。 当 作为 可 执行 的 WAR 文 件 运行 时 ， 将 使 


WarLauncher。 让 我 们 在 META- 


Manifest-Version: 1.0 

Implementation-Title: boot-war 
Implementation-Version: 1.0-SNAPSHOT 
Archiver-Version: Plexus Archiver 

Built-By: Joe 

Implementation-Vendor-Id: com.lietu.example 
Spring-Boot-Version: 1.4.3.RELEASE 
Implementation-Vendor: Lietu Software, Inc. 
Main-Class: org.springframework.boot.loader.WarLauncher 
Start-Class: com.lietu.example.WarSstructureExample 
Spring-Boot-Classes: WEB-INF/classes/ 
Spring-Boot-Lib: WEB-INF/1ib/ 

Created-By: Apache Maven 3.0.5 

Build-Jdk: 1.8.0 111 


Implementation-URL: http://projects.spring.io/spring-boot/boot-war/ 


由 于 启动 器 类 和 嵌入 式 服务 器 JAR 文 件 相关 的 所 有 文件 只 包含 在 lib-provided 文 件 夹 中 ， 所 以 引导 WAR 扩 展 只 是 为 了 WAR 的 可 执行 性 ， 并 且 在 部 署 到 Servlet 容 器 中 时 不 会 发 挥 任何 作用 。 


部 署 这 个 WAR 文 件 到 Tomcat 服 务 器 的 方法 ， 与 传统 的 WAR 文 件 方法 相同 。 


6.2.2 spring-boot-devtools 模 块 实现 热 部 署 


Spring Boot 在 1.3 版 本 中 引入 了 spring-boot-devtools 模 块 。 这 个 模块 的 主要 目标 是 通过 在 项 目的 开发 阶段 启用 一 些 重要 的 关键 特性 来 提高 开发 速度 。 


使 用 spring-boot-devtools 模 块 的 应 用 程序 将 在 类 路 径 上 的 文件 发 生 更 改 时 自动 重启 。 在 IDE 中 工作 时 ， 这 是 一 个 非常 有 用 的 功能 ， 因 为 它 为 代码 更 改 提供 了 一 个 非常 快速 的 反馈 循环 。 


默认 情况 下 系统 会 监视 类 路 径 上 的 所 有 变动 。 但 请 注意 ， 某 些 资源 (如 静态 资源 和 视图 模板 ) 不 需要 重启 应 用 程序 。 


想 要 使 用 devtools 支 持 ， 只 需 将 模块 依赖 关系 添加 到 构建 中 。 对 于 Maven 构 建 ， 添 加 如 下 依赖 : 


<dependencies> 
<dependency> 
<groupId>org.springframework.boot</groupId> 
<artifactId>spring-boot-devtools</artifactId> 
<optional>true</optional> 
</dependency> 
</dependencies> 


量 启 功能 对 于 使 用 标准 ObjectinputStream 实 现 反 序列 化 的 对 象 会 出 错 。 例 如 ， 使 用 序列 化 和 反 序 列 化 将 Java 对 象 存储 到 Redis 数 据 库 中 时 ， 可 能 会 出 现 类 型 转换 异常 。 如 果 需 要 反 序 列 化 数据 ， 可 能 需 
使 用 Spring 的 ConfigurableObjectlnputStream 配 合 Thread.currentThread () .getContextClassLoader () 使 用 。 


6.3 ” Java 模板 引 警 Pebble 介 绍 


可 以 使 用 模板 引擎 Pebble 实 现 搜索 首页 。 首 先 ， 将 以 下 依赖 项 添加 到 项 目的 pom.xml 文 件 中 : 


<dependency> 
<groupId>com.mitchellbosecke</groupId> 
<artifactId>pebble</artifactId> 
<version>2.4.0</version> 

</dependency> 


创建 一 个 网 页 模板 ，home.html 文 件 内 容 如 下 : 


<html> 
<head> 
<title>{{ websiteTitle }}</title> 
</head> 
<body> 
{{ content }} 
</body> 
</html> 


代码 生成 网 页 : 


PebblePngine engine = new PebbleEngine.Builder() .build(); // 构 建 出 PebbleEngine 
// 根 据 文件 得 到 模板 

PebbleTemplate compiledTemplate = engine.getTemplate ("home.html"); 

// 把 模板 生成 的 网 页 写 入 字符 串 中 

Writer writer = new StringWriter(); 

// 通 过 键 / 值 对 传 入 模板 参数 

Map<String, Object> context = new HashMap<>(); 


context .put ("websiteTitle", "My First Website"); 
context .put ("content", "My Interesting Content"); 


// 模 板结 合 模板 参数 


compiledTemplate.evaluate (writer, context); 


String output = writer.toSstring(); // 得 到 生成 的 网 页 结果 
System.out .Println (output); 


PebbleEngineBuilder 也 能 接受 一 个 加 载 器 (Loader) 实现 作为 参数 。 加 载 器 加 载 程序 负责 查找 模板 。Pebble 自 带 如 下 加 载 器 实现 。 
“ ClasspathLoader: 使 用 类 加 载 器 来 搜索 当前 的 类 路 径 。 
“ FileLoader: 使 用 文件 系统 路 径 查找 模板 。 
“ ServletLoader: 使 用 Servlet 上 下 文 来 查找 模板 。 
“StringLoader: 直接 提供 模板 的 内 容 。 


“ DelegatingLoader: 一 个 子 加 载 器 集合 的 代理 。 


下 面 是 使 用 StringLoader 的 例子 。 


PebblePngine engine = new PebbleEngine.Builder().loader( 
new StringLoader()) .build(); // 使 用 StringLoader 构 建 出 PebbleEngine 


StringWriter writer = new StringWriter () 7 


Map<String, Object> context = new HashMap<>(); 
Context .put ("name", "lietusearch"); 

engine.getTemplate ("<p>{ {name} }</p>") .evaluate (writer, context); // 根 据 字符 串 得 到 模板 
String result = writer.toString();  ”// 得 到 结果 <p>lietusearch</p> 


在 Servlet 环 境 中 使 用 ServletLoader: 


Public class SearchServlet extends HttpServlet { 
QOverride 
public void doGet (HttpServletRequest req, HttpServletResponse resp) 
throws ServletException, IOException { 
String qStr = req.getParameter ("gq"); 


ServletOutputStream out = resp.getOutputStream(); 


resp.setContentType ("text/html;charset=UTF-8"); 
try { 
ServletContext sc = getServletContext (); 
PebbleEngine engine = new PebbleEngine.Builder() .loader( 
new ServletLoader (sc)) .build(); 
PebbleTemplate compiledTemplate = 
engine.getTemplate ("searchResult .html"); 
compiledTemplate.getName (); 
Writer writer = new StringWriter(); 


Map<String, Object> context = new HashMap<>(); 
context .put ("websiteTitle", qStr); 
context .put ("content", "search Content"); 


compiledTemplate.evaluate (writer, context); 


String result = writer.toString(); 
out.println (result); 

} catch (Exception ex) { 
ex.printStackTrace (); 


可 以 使 用 Mockito 测 试 这 个 Servlet 类 。 先 使 用 Mockito 和 JUnit 进 行 测试 : 


public class TestMock extends TestCase { 
public static void testList () { 


List mock = Mockito.mock (List.class); // 创 建 出 指定 类 型 的 对 象 
System.out .Println(" mock.get (0):" + mock.get (0)); // 返 回 null 
Mockito.when (mock.get (0) ) .thenReturn (1); // 设 置 对 象 的 行为 


System.out.println(" mock.get (0):" + mock.get (0));  // 返 回 1 
} 
} 


Mockito 使 用 Byte Buddy 生 成 Java 字 节 码 来 创造 出 需要 的 对 象 。 


测试 Servlet 用 的 存根 类 FakeServletOutputStream 代 码 如 下 : 


public class FakeServletOutputStream extends ServletOutputStream { 
public ByteArrayOutputStream baos = new ByteArrayOutputStream(); 


public void write (int i) throws IOException { 
baos.write (i); 


} 


public String getContent () { 
return baos.toString(); // 返 回 输出 的 内 容 
} 


QOverride 
public boolean isReady() { 
return false; 


} 


QOverride 

public void setWriteListener (WriteListener arg0) { 
} 

} 


然后 结合 存根 类 使 用 Mockito 测 试 Servlet 类 : 


HttpServletRequest httpServletRequest = Mockito 
.mock (HttpServletRequest.class); // 得 到 请 求 类 
Mockito.when (httpServletRequest .getParameter ( )) .thenReturn( 
"DNA") ; // 模 拟 请 求 类 的 行为 
final HttpServletResponse httpServletResponse = Mockito 
.mock (HttpServletResponse.class); // 得 到 响应 类 


// 创 建 存根 类 

final FakeServletOutputStream servletOutputStream = new 

FakeServletOutputStream(); 

Mockito.when (httpServletResponse.getOutputStream() ) .thenReturn ( 
servletOutputStream); // 在 响应 类 中 使 用 存根 类 


// 得 到 Servlet 上 下 文 类 


final ServletContext servletContext = Mockito.mock (ServletContext.class); 


// 指 定 返回 搜索 首页 的 本 地 文件 路 径 
Mockito.when (servletContext .getResourceAsStream("home.html")). 
thenReturn( 

new FileInputStream("F:/workspace/PebblePlay/src/home.html")); 


// 创 建 用 于 搜索 的 Servlet 实 例 
SearchServlet searchServlet = new SearchServlet() { 
public ServletContext getServletContext() { 

return servletContext; // 返 回 mock 


} 
1 


// 设 置 Servlet 实 例 的 请 求 和 响应 类 
searchServlet .doGet (httpServletRequest, httpServletResponse); 
System.out .printlin("content:" + SerVletOutputStream.getContent ()); 


可 以 通过 循环 在 首页 显示 一 些 热门 查询 词 ， 包 含 循环 的 模板 : 


PebbleFngine engine = new PebbleFngine.Builder() .loader( 
new StringLoader () ) .build(); // 创 建 模 板 引擎 


StringWriter writer = new StringWriter () 7 


// 查 询 项 目 列表 

List<String> searchItems = new ArrayList<>(); 
SearchItems .add ("search iteml"); 
searchItems.add ("search item2"); 
SearchItems .add ("search item3"); 


Map<String, Object> context = new HashMap<>(); 
context .put ("searchItems", searchItems); 


// 设 置 字 符 串 模 板 
engine .getTemplate( 
"{% if searchItems is iterable %}{% for searchItem in searchItems 
多 }m 十 
™ \"{{ searchItem }}\" this\n" + 


"{% endfor %}{% else gS}nope{%® endif %}") .evaluate (writer, 


context); 

// 得 到 结果 

String result = writer.toString(); 
System.out.println (result); 


可 以 把 Pebble 模 板 引 擎 作为 展示 层 整 合 进 SpringBoot 的 MVC 架 构 中 。ViewResolver 是 SpringBoot MVC 的 核心 组 件 。 将 @Controller 中 的 视图 名 称 转换 为 实际 的 View 实 现 。ViewResolver 将 视图 名 称 
映射 到 实际 的 视图 。 请 注意 ，ViewResolver 主 要 用 于 UI 应 用 程序 ， 而 不 是 REST 风 格 的 服务 (View 不 用 于 呈现 @ResponseBody) 。 


这 里 专注 于 ViewResolver 的 配置 并 启动 运行 。 首 先 ， 需 要 正确 配置 ViewResolver 组 件 。 整 合 Pebble 模 板 引擎 稍微 复杂 一 些 ， 因 为 配置 的 结果 会 非常 紧密 地 连接 到 Servlet 配 置 本 身 。 所 以 ， 


@BeanMvcConfiguration 并 添加 : 


到 


回 


QBean (name="pebbleViewResolver") // 使 用 Bean 注 解 注 册 pebbleViewResolver 


public ViewResolver getPebbleViewResolver (){ 


PebbleViewResolver resolver = new PebbleViewResolver(); // 视 图 实现 类 


resolver.setPrefix("/pebble/"); // 设 置 前 级 
resolver.setSuffix(".html"); // 设 置 后 级 
resolver.setPebbleEngine (pebbleEngine()); // 设 置 模板 引擎 


return resolver; 


模板 可 以 通过 application.properties 进 行 配置 ， 但 是 目前 Pebble 模 板 引 擎 并 不 支持 该 方法 ， 需 要 通过 手动 配置 ， 定 义 更 多 的 Pebble 相 关 的 @Beans。 代 码 如 下 : 


Q@Bean 
public PebbleEngine PebbleFngine() { 


return new PebbleEngine.Builder () 
.loader (this.templatePebbleLoader ()) 
.extension (pebbleSpringExtension ()) 


.build(); // 构 建 模板 引擎 

} 
模板 加 载 器 : 
@Bean 
public Loader templatePebbleLoader (){ 

return new ServletLoader (servletContext); // 创 建 Servlet 加 载 器 
} 
Spring 扩 展 Bean: 
@Bean 


public SpringExtension pebbleSpringExtension() { 
return new SpringExtension(); 


} 


返回 模板 加 载 器 的 templatePebbleLoader () 方法 需要 直接 访 放 


可 ServletContext， 该 ServletContext 需 要 注入 配置 Bean 注 解 。 代 码 如 下 : 


@Autowired 
private ServletContext servletContext; 


这 样 做 了 以 后 ，Pebble 将 接管 创建 的 Servlet。 现 在 我 们 已 经 准备 好 Pebble 配 置 ， 然 后 在 webapp 下 创建 一 个 新 的 pebble 文 件 夹 ， 并 添加 一 个 新 的 模板 文件 pebble.html。 代 码 如 下 : 


<html> 
<head> 
<title>{{ pebble }}</title> 
</head> 
<body> 
{{ pebble }} 
</body> 
</html> 


把 模板 引擎 分 配给 自己 的 控制 器 ， 负 责 正确 输出 生成 ， 代 码 如 下 


QController 
public class PebbleHelloController { 
GRequestMapping (value = "/pebble") // 把 请 求 映射 到 pebble 文 件 夹 
Public String something (Model model){ // 根 据 输入 的 模型 输出 响应 
System.out .println ("Pebble"); 
model.addattribute ("pebble"，"The Pebble"); // 设 置 模型 中 的 属性 值 


return "pebble"7 


6.4 通过 Spring-data-elasticsearch 


项 目 访问 Elasticsearch Spring Data 项 目 中 (下 载 地 址 为 https://github.com/spring-projects/spring-data-elasticsearch) 提供 了 一 套数 据 访问 层 (DAO) 的 解决 方案 ， 致 力 于 减少 数据 访问 
发 量 。Spring-data-elasticsearch 是 Spring Data 的 子 项 目 ， 实 现 了 Spring Data 访 问 Elasticsearch 存 储 并 提供 了 Spring Data JPA (Java 持 久 化 AP1) 模型 的 访问 方式 。 


Spring Data 项 目 使 用 一 个 叫做 Repository 的 接口 类 为 基础 。Repository 接 口 定义 如 下 : 


层 的 开 


public interface Repository<T, ID extends Serializable> { 


} 


Repository 接 口 是 访 问 底层 数据 模型 的 超级 接口 ， 而 对 某 种 具体 的 数据 访问 操作 ， 则 在 其 子 接口 中 定义 。 例 如 ，Spring-data-elasticsearch 项 目 中 定义 了 访问 Elasticsearch 数 据 的 
ElasticsearchRepository 接 口 。ElasticsearchRepository 接 口 扩展 了 PagingAndSortingRepository 接 口 ， 它 为 分 页 和 排序 提供 了 内 置 的 支持 。 


可 以 使 用 JavaPoet 生 成 PagingAndSortingRepository 接 口 的 扩 


展 代码 。 要 指定 一 个 接口 ， 可 以 使 用 TypeSpec.Builder.addSuperinterface () 方法 。 代 码 如 下 : 


TypeSpec userRepository = TypeSpec 


.interfaceBuilder ("UserRepository") // 定 义 接口 
.addAnnotation (Repository.class) // 增 加 注解 
.addModifiers (Modifier.PUBLIC) // 增 加 修饰 符 
.addSuperinterface( // 定 义 接口 的 父 类 


ParameterizedTypeName .get ( 
ClassName .get (PagingAndSortingRepository.class), 
ClassName .get (User.class), 
ClassName.get (Long.class))) .build(); 


JavaFile javaFile = JavaFile.builder ("com.lietu.helloworld", 
userRepository) .build(); 


javaFile.writeTo (System.out); 


生成 的 代码 如 下 : 


import java.lang.Long; 

import org.springframework.boot.autoconfigure.security.SecurityProperties; 
import org.springframework.data.repository.PagingAndSortingRepository; 
import org.springframework.data.repository.Repository; 


@Repository 

public interface UserRepository extends 
PagingAndSortingRepository<SecurityProperties.User, Long> { 

} 


所 有 继承 Repository 接 口 的 界面 都 由 Spring 管理 ， 该 接口 作为 标识 接口 ， 功 能 就 是 用 来 控制 领域 模型 。Spring Data 项 目 可 以 让 我 们 只 定义 接口 


Spring 可 以 根据 接口 中 定义 的 方法 名 实现 Repository 接 口 。 


引入 包 spring-data-elasticsearch， 并 且 去 掉 依赖 项 elasticsearch， 代 码 如 下 : 


只 要 遵循 Spring Data 项 目的 规范 ， 


<dependency> 
<groupId>org.springframework.data</groupId> 
<artifactId>spring-data-elasticsearch</artifactId> 
<version>${spring-data-elasticsearch-version}</version> 
<exclusions> 
<exclusion> 
<artifactId>elasticsearch</artifactId> 
<groupId>org.elasticsearch</groupId> 
</exclusion> 
</exclusions> 
</dependency> 


在 XML 文 件 中 配置 连接 参数 ， 代 码 如 下 : 


<?xml version="1.0" encoding="UTF-8"?> 
<beans xmlns="http://www.springframework.org/schema/beans" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xmlns:elasticsearch="http://www.springframework.org/schema/data/ 
elasticsearch" 
xsi:schemaLocation="http://www.springframework.org/schema/data/ 
elasticsearch http://www.springframework.org/schema/data/elasticsearch/spring- 
elasticsearch-1.0.xsd 


http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans-3.2.xsd"> 


<! 一 -连接 参数 --> 
<elasticsearch:transport-client id="client" 
cluster-nodes="127.0.0.1:9300" cluster-name="lietu" /> 

<bean name="elasticsearchTemplate" 
class="org.springframework.data.elasticsearch.core. 
ElasticsearchTemplate"> 

<constructor-arg name="client" ref="client"/> 

</bean> 


<elasticsearch:repositories base-package="org.springframework.data.elasticsearch.repositories" /> 


</beans> 


为 自 定义 方法 扩展 ElasticsearchRepository: 


public interface BookRepository extends Repository<Book, String> { 
// 通 过 名 字 和 价格 查找 图 书 
List<Book> findByNameAndPrice (String name, Integer price); 
// 通 过 名 字 或 者 价格 查找 图 书 
List<Book> findqBYNameOrPrice (String name, Integer price); 
// 通 过 名 字 查 找 图 书 
Page<Book> findByName (String name,Pageable page); 
// 通 过 价格 区 间 查 找 图 书 
Page<Book> findByPriceBetween (int price,Pageable page); 
// 通 过 名 字模 糊 查 找 图 书 
Page<Book> findByNameLike (String name,Pageable page); 
// 通 过 内 容 查找 图 
@Query("{\"bool\™ : {\"must\" : {N"termN" : {\"message\™" : \"?0\"}}}}") 
Page<Book> findByMessage (String message, Pageable pageable); 


使 用 Repository 接 口 索引 单个 文档 ， 代 码 如 下 : 


@Autowired 

private SampleElasticsearchRepository repository; //Elasticsearch 存 储 库 
String documentId = "123456"; // 文 档 编 号 
SampleEntity sampleEntity = new SampleEntity(); // 创 建 实体 类 
sampleEntity.setId (documentId); // 设 置 文档 编号 
sampleEntity.setMessage ("some message"); // 设 置 消息 
repository.save (sampleFntity); // 保 存 实体 类 到 存储 库 


使 用 Repository 索 引 多 个 文档 (批量 索引 ) : 


@Autowired 

private SampleElasticsearchRepository repository; 
// 创 建 两 个 文档 

String documentId = "123456"; 

SampleEntity sampleEntityl = new SampleEntity (); 
sampleEntityl1.setId (documentId); 
sampleEntityl.setMessage ("some message"); 

String document1Id2 = "123457" 

SampleEntity sampleEntity2 = new SampleEntity (); 
sampleEntity2.setId (document1d2); 
sampleEntity2.setMessage ("test message"); 

// 实 体 类 数组 

List<SampleFntity> sampleEntities = Arrays.asList (sampleEntityl, 
sampleEntity2); 

// 批 量 索引 


repository.save (sampleEntities); 


ElasticsearchTemplate 是 Elasticsearch 操 作 的 核心 支持 类 。 使 用 ElasticsearchTemplate 类 索引 单个 文档 ， 代 码 如 下 : 


// 创 建 单个 文档 

String documentId = "123456"; 

SampleEntity sampleEntity = new SampleEntity(); 
sampleEntity.setId (documentId); 

sampleEntity.setMessage ("some message"); 

IndexQuery indexQuery = 

new IndexQueryBuilgder() .withId (sampleEntity.getId()) .withObject 
(sampleEntity) .build(); 

elasticsearchTemplate.index (indexQuery); 


使 用 ElasticsearchTemplate 类 索引 多 个 文档 (批量 索引 ) ， 代 码 如 下 : 


@Autowired 
private ElasticsearchTemplate elasticsearchTemplate; 
List<IndexQuery> indexQueries = new ArrayList<IndexQuery> () 7 
// 第 一 个 文档 
String documentId = "123456"; 
SampleEntity sampleEntityl = new SampleEntity (); 
sampleEntityl1.setId (documentId); 
sampleEntityl.setMessage ("some message"); 
IndexQuery indexQueryl = 
new IndexQueryBuilder() .withId (sampleEntityl .getId()) 
.withObject (sampleEntity1) .build(); 
indexQueries.add (indexQuery1); 
// 第 二 个 文档 
String document1Id2 = "123457"7 
SampleEntity sampleEntity2 = new SampleEntity(); 
sampleEntity2.setId (document1d2); 
S leEntity2.setMessage ("some message"); 
// 构 建 索引 查询 
IndexQuery indexQuery2 = 
new IndexQueryBuilder() .withId (sampleEntity2.getId()) 
.withObject (sampleEntity2) .build() 
indexQueries.add (indexQuery2); 
// 批 量 索引 


elasticsearchTemplate.bulkIndex (indqexQueries) 7 


使 用 Elasticsearch Template 搜 索 实 体 : 


QAutowired 

private ElasticsearchTemplate elasticsearchTemplate; 

// 构 建 查询 类 

SearchQuery searchQuery = new NativeSearchQueryBuilder () 
.withQuery (queryString (daocumentId) .field ("id")) 
‘build(); 

// 返 回 一 页 查询 结果 

Page<SampleEntity> sampleEntities = 
elasticsearchTemplate.queryForPage (searchQuery, SampleEntity. 
class); 

可 以 使 用 实体 类 定义 索引 结构 ， 代 码 如 下 : 

import org.springframework.data.annotation.Id; 

import org.springframework.data.annotation.Version; 

import org.springframework.data.elasticsearch.annotations.Document; 

import org.springframework.data.elasticsearch.annotations.Field; 

import Oe .data.elasticsearch.annotations.FieldType; 


// 通 过 注解 映射 实体 类 到 索引 库 
Q@Document (indexName = "book",type = "book" , shards = 1, replicas = 0, indexStoreType = "memory", refreshIinterval = "-1") 
public class Book { 

@Id 

private String id; // 图 书 编号 


private String name; 
private Long price; 
QVersion 
private Long version; // 版 本 号 
public Map<Integer, Collection<Sstring>> getBuckets() { 
return buckets; 
} 
public void setBuckets (Map<Integer, Collection<String>> buckets) { 
this.buckets = buckets; 


} 
// 书 对 应 的 类 别 
QField (type = FieldType.Nested) 
private Map<Integer, Collection<String>> buckets = new HashMap(); 
public Book(){} 
public Book (String id, String name,Long version) { 
this.id = id; 
this.name = name; 
this.version = version; 


} 

// 实 体 Bean 需 要 的 一 些 方法 

public String getId() { 
return id; 

. 

public void setId(String id) { 
this.id = id; 


} 

public String getName() { 
return name; 

} 

public void setName (String name) { 
this.name = name; 

} 

public Long getPrice() { 
return price; 


public void setPrice(Long price) { 
this.price = price; 


} 

public long getVersion() { 
return version; 

} 

public void setVersion(long version) { 
this.version = version; 


} 


实际 执行 索引 结构 定义 : 


elasticsearchTemplate.putMapping (Book.class) 


另 一 个 使 用 注解 的 例子 ， 代 码 如 下 : 


@Entity (name="content") 
QDocument (indexName = "lietuim", type = "content") // 索 引 类 型 
public class ContentEntity { 
private int id; 
QField (type = FieldType.text, searchAnalyzer = "standard", 
analyzer = "standard", store = true) // 通 过 注解 指定 内 容 所 用 的 分 析 器 


private String content17 


QField (type = FieldType.Double store = true) // 指 定 要 存储 的 浮 点 数 
Private Double numl; 

QField (type = FieldType.Date, store = true) // 日 期 类 型 的 发 布 时 间 
private Timestamp nowtime; 

QField (type = FieldType.text, store = false) // 唯 一 编号 


Private String uuid; 

QField (type = FieldType.Integer, store = false) // 受 欢迎 程度 
private Integer likenum; 

private int cid; 


public ContentEntity(int id, String contentl, Double numl, 
Timestamp nowtime, String uuid，Integer likenum，int cid){  // 构 造 方法 
this.id = id; 
this.content1 = contentl; 
this.numl = numl; 
this.nowtime = nowtime; 
this.uuid = uuid; 
this.likenum = likenum; 
this.cid = cid; 
} 


public ContentEntity() { 
} 


@Id 
@GeneratedValue (strategy = IDENTITY) 
ecolumn (name = "id"，unique = true, nullable = false) // 生 成 的 唯一 编号 
public int getId() { 
return id; 


} 


public void setId(int id) { 
this.id = id; 
} 


Q@Basic 

@Column (name = "content1") 

public String getContent1() { 
return Content17 


} 


public void setContentl] (String content1) { 
this.content1 = contentl; 
} 


@Basic 

@Column (name = "num1") 

public Double getNuml () { 
return numl; 


} 


public void setNuml (Double numl) { 
this.nvuml = numl; 


} 


QBasic 

@Column (name = "nowtime") 

public Timestamp getNowtime () { 
return nowtime; 


} 


public void setNowtime (Timestamp nowtime) { 
this.nowtime = nowtime; 


} 


@Basic 

@Column (name = "uuid") 

public String getUuid() { 
return uuid” 


} 


public void setUuid(String uuid) { 
this.uuid = uuid; 


} 


QBasic 
@Column (name = "likenum") // 评 分 
public Integer getLikenum() { 

return likenum; 


} 


public void setLikenum(Integer likenum) { 
this.likenum = likenum; 


} 


Q@Basic 
Q@Column (name = "cid") // 类 别 
public int getcid() { 

return cid; 


} 


public void setCidl(int cid) { 
this.cid = cid; 
} 


可 以 通过 XML 配置 设置 存储 库 。 


使 用 节点 客户 端 连接 到 服务 器 端 : 


<?xml version="1.0" encoding="UTF-8"?> 
<beans xmlns="http://www.springframework.org/schema/beans" 
xmlns:xsi="http://www.w3.0org/2001/XMLSchema-instance" 
xmlns:elasticsearch="http://www.springframework.org/schema/data/ 
elasticsearch" 
xsi:schemaLocation="http://www.springframework.org/schema/data/ 
elasticsearch http://www.springframework.org/schema/data/elasticsearch/spring- 
elasticsearch.xsd 
http://www.springframework.org/schema/beans http://www.springframework. 
org/schema/beans/spring-beans.xsd"> 


<elasticsearch:node-client id="client" local="true"/> 
<bean name="elasticsearchTemplate" class="org.springframework.data. 
elasticsearch.core.ElasticsearchTemplate"> 
<constructor-arg name="client" ref="client"/> 
</bean> 


</beans> 


使 用 Transport 客 户 端 连接 到 服务 器 端 : 


<?xml version="1.0" encoding="UTF-8"?> 

<beans xmlns="http://www.springframework.org/schema/beans" 
xmlns:xsi="http://www.w3.0org/2001/XMLSchema-instance" 
xmlns:elasticsearch="http://www.springframework.org/schema/data/ 
elasticsearch" 
xsi:schemaLocation="http://www.springframework.org/schema/data/ 
elasticsearch http://www.springframework.org/schema/data/elasticsearch/spring-elasticsearch.xsd 
http://www.springframework.org/schema/beans http://www.springframework. 


org/schema/beans/spring-beans.xsd"> 


<elasticsearch:repositories base-package="com.xyz.acme"/> 

<! 一 - 设 定 连接 参数 --> 
<elasticsearch:transport-client id="client" cluster-nodes="ip:9300, 
ip:9300" cluster-name="elasticsearch" /> 


<bean name="elasticsearchTemplate" 
class="org.springframework.data.elasticsearch.core. 
ElasticsearchTemplate"> 
<constructor-arg name="client" ref="client"/> 
</bean> 


</beans> 


6.5 ”REST 基 本 概念 


REST 即 表述 性 状态 传递 (Representational State Transfer) ， 是 2000 年 Roy Fielding 博 士 在 他 的 博士 论文 中 提出 的 一 种 软件 架构 风格 。REST 是 一 种 针对 网 络 应 用 的 设计 和 开发 方式 ， 可 以 降低 开发 的 
复杂 性 ， 提 高 系统 的 可 伸缩 性 。 


目前 在 三 种 主流 的 Web 服 务实 现 方案 中 ， 


BH 


为 REST 模 式 的 Web 服 务 相 比 复杂 的 SOAP 和 XML-RPC 来 讲 明显 更 加 简洁 ， 因 此 越 来 越 多 的 Web 服 务 开始 采用 REST 风 格 进行 设计 和 实现 。 


要 构建 REST API， 必 须 了 解 以 下 4 点 内 容 。 
“ 控制 器 : 控制 器 控制 HTTP 请 求 与 应 用 程序 逻辑 之 间 的 交互 。 
“ 资源 : 指定 连接 到 Elasticsearch 服 务 器 的 参数 。 
: 链接 : 翻 页 链接 。 


“ 如 何 构 建 这 些 链 接 : 在 REST 控 制 器 中 使 用 spring-data-common 项 目的 Paged ResourcesAssembler 类 ， 它 可 以 在 响应 中 生成 下 一 页 /上 一 页 的 链接 。 


首先 ，@Configuration 注 解 是 基于 Java 的 Spring 配置 使 用 的 主要 构件 ， 它 本 身 是 使 用 @Component 进 行 元 注解 的 ， 它 使 得 被 注解 类 标注 的 Bean 也 成 为 组 件 扫描 的 候选 项 。@Configuration 类 的 主要 
目的 是 作为 Spring loC 容 器 的 Bean 定 义 源 。 


注解 成 配置 的 类 不 应 该 是 final 修 饰 的 类 ， 这 个 类 应 该 有 一 个 没有 参数 的 构造 函数 。 代 码 如 下 : 


@Configuration 
Q@ComponentScan( basePackages = "org.rest" ) 
@PropertySource ({ 
"classpath:rest .properties", 
"classpath:web.properties" 
}) 
public class AppConfig{ 


@Bean 
public static PropertySourcesPlaceholderConfigurer 
properties() { 


return new PropertySourcesPlaceholderConfigurer () 7 
} 
i 


使 用 HttpMessageConverter 和 注解 创建 RESTful 服 务 。 代 码 如 下 : 


@Configuration 

@EnableWebMvc 

public class WebConfig{ 
a 

} 


@EnableWebMvc 注 解 会 在 类 路 径 中 检测 到 Jackson 和 JAXB 2 的 存在 ， 并 自动 创建 和 注册 默认 的 JSON 与 XML 转 换 器 。 


测试 Spring 上 下 文 : 


@RunWith( SpringJUnit4C1assRunner.class ) 

@ContextConfiguration( 
classes = { ApplicationConfig.class, PersistenceConfig.class }, 
loader = AnnotationConfigContextLoader.class ) 

public class SpringTest { 


@Test 
public void whenSpringContextIsInstantiated thenNoExceptions (){ 
// When 
} 
} 


Java 配 置 类 仅 用 @ContextConfiguration 注 解 指定 ， 新 的 AnnotationConfigContextLoader 类 从 @Configuration 类 加 载 Bean 中 定义 。 


请 注意 ， 这 个 测试 并 没有 包含 WebConfig 配 置 类 ， 因 为 它 需要 在 Servlet 上 下 文中 运行 ， 但 这 里 并 未 提供 。 


@Controller 是 RESTful API 整 个 Web 层 中 的 中 心 构件 。 示 例 代码 如 下 : 


@Controller 
Q@RequestMapping ("/foos") 
Class FooController { 


@Autowired 
private IFooService service; 


@RequestMapping (method = RequestMethod.GET) 

@ResponseBody 

public List<Foo> findAll() { 
return service.fingdAll () 


@RequestMapping (value = "/{id}", method = RequestMethod.GET) 
@ResponseBody 
public Foo findqone (@PathVariable ("id") Long id) { 

return RestPreconditions .checkFound( service.findone( id )); 


@RequestMapping (method = RequestMethod.POST) 


@ResponseStatus (HttpStatus .CREATED) 

@ResponseBody 

public Long create (QRequestBody Foo resource) { 
Preconditions.checkNotNull (resource); 
return service.create (resource); 


} 


@RequestMapping (value = "/{id}", method = RequestMethod.PUT) 
QResponseStatus (HttpStatus .OK) 
public void update (GPathVariable( "id" ) Long id, @RequestBody Foo 
resource) { 
Preconditions .checkNotNu1l11 (resource); 
RestPreconditions.checkNotNull] (service.getById( resource.getId())); 
service.update (resource); 


} 


@RequestMapping (value = "/{id}", method = RequestMethod.DELETE) 

QResponseStatus (HttpStatus .OK) 

public void delete (GPathVariable("id") Long id) { 
service.deleteById (id); 

} 


控制 器 的 实现 类 是 非 公开 的 ， 因 为 它 不 需要 公开 。 


通常 ， 控 制 器 是 依赖 关系 链 中 的 最 后 一 个 一 一 它 接收 来 自 Spring 前 端 控 制 器 (DispathcerServlet) 的 HTTP 请 求 ， 并 将 这 些 请 求 转发 到 服务 层 。 如 果 没有 使 用 场景 通过 直接 引用 来 注入 或 操纵 控制 器 ， 
那么 就 没有 必要 将 它 声 明 为 公开 的 类 。 


请 求 映射 的 实际 值 及 HTTP 方 法 都 定 请 求 的 目标 方法 。@RequestBody 会 将 方法 的 参数 绑 定 到 HTTP 请 求 的 正文 中 ， 而 @ResponseBody 对 响应 和 返回 类 型 执行 相同 的 操作 。 


来 自 Spring Boot 的 @RestController 注 释 基 本 上 是 一 个 快捷 方式 ， 可 以 帮助 我 们 避免 必须 定义 @ResponseBody。 代 码 如 下 : 


import org.springframework.stereotype.Controller; 
import org.springframework.web.bind.annotation.RequestMapping; 
import org.springframework.web.bind.annotation.ResponseBody; 


import javax.annotation.Resource; 


Q@Controller 
@RequestMapping (value = "/cah") 
public class CahController { 


@Resource (name = "cahService") 
private CahService cahService; 


/x** 


* 新 增 潜 导 


* @return 
* @throws Exception 
六 
/ 
Q@RequestMapping (value = "/save") 
@ResponseBody 
public Object save () throws Exception { 
JsonResult jsonResult = new JsonResult (); 


jsonResult.setCode ("00") 
JsonResult.setMessage ("msg"); 


return jsonResult; 


调用 CahController 的 save 方 法 : 


http://localhost:8080/cah/save 


当 对 资源 进行 部 分 更 新 时 ， 可 以 使 用 HTTP PATCH。 首 先 定义 实现 REST API 以 更 新 具有 多 个 字段 的 HeavyResource。 代 码 如 下 : 


public class HeavyResource { 
private Integer id; 
private String name; 
private String address; 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/OEBPS/Text/... 


然后 ， 需 要 创建 使 用 PUT 来 处 理 资源 的 完整 更 新 的 端点 : 


@PutMapping ("/heavyresource/{id}") 
public ResponseEntity<?> saveResource (QRequestBody HeavyResource 
heavyResource, 
@PathVariable ("id") String id) { 
heavyResourceRepository.save (heavyResource, id); 
return ResponseEntity.ok("resource saved"); 


这 是 更 新 资源 的 标准 端点 。 


通常 我 们 会 由 客户 端 更 新 地 址 字段 。 在 这 种 情况 下 ， 我 们 不 想 将 所 有 的 字段 都 传 给 整个 HeavyResource 对 象 ， 但 是 希望 通过 PATCH 方法 只 更 新 地 址 字段 ， 因 此 可 以 创建 一 个 
HeavyResourceAddressOnly DTO 来 表示 地 址 字段 的 部 分 更 新 。 


接 下 来 ， 可 以 利用 PATCH 方法 发 送 部 分 更 新 。 代 码 如 下 : 


@PatchMapping ("/heavyresource/{id}") 

public ResponseEntity<?> partialUpdateName ( 
@RequestBody HeavyResourceAddressOnly partialUpdate, 
@PathVariable ("id") String id) { 


heavyResourceRepository.save (partialUpdate, id); 
return ResponseFntity.ok("resource address updated"); 


使 用 这 种 更 细 粒 度 的 DTO， 可 以 只 发 送 需要 更 新 的 字段 ， 而 无 须发 送 整个 Heavy Resource。 如 果 我 们 有 大 量 这 样 的 部 分 更 新 操作 ， 也 可 以 跳 过 为 每 个 外 部 创建 一 个 定制 的 DTO， 而 仅 使 用 一 个 Map， 
代码 如 下 : 


Q@RequestMapping (value = "/heavyresource/{id}", method = RequestMethod. 
PATCH, consumes = MediaType .APPLICATION JSON VALUE) 
public ResponseEntity<?> partialUpdateGeneric( 

@RequestBody Map<String, Object> updates, 


@PathVariable ("id") String id) { 


heavyResourceRepository.save (updates, id); 
return ResponseEntity.ok("resource updated"); 


该 解决 方案 将 为 我 们 提供 更 多 的 灵活 性 来 实现 AP1。 


最 后 为 这 两 个 HTTP 方 法 编写 测试 代码 。 首 先 ， 我 们 要 通过 PUT 方法 测试 完整 资源 的 更 新 。 代 码 如 下 : 


mockMvc .Perform (put ("/heavyresource/1") 
‘contentType (MediaType.APPLICATION JSON VALUE) 
.Content (objectMapper .writeValueAsString( 
new HeavyResource (1， "Tom", "Jackson", 12, "heaven street"))) 
) .andExpect (status () .isOk () ) 7 


通过 使 用 PATCH 方法 来 实现 部 分 更 新 。 代 码 如 下 : 


mockMvc .Perform (Patch ("/heavyrecource/1") 
.contentType (MediaType ‘APPLICATION JSON VALUE) 
.Content (objectMapper .writeValueAsString( 
new HeavyResourceAddressOnly(1, "5th avenue") ) ) 
) .andExpect (status () .isOk()); 


还 可 以 为 更 通用 的 方法 编写 一 个 测试 : 


HashMap<String, Object> updates = new HashMap<> () 7 
updates.put ("address", "5th avenue"); 


mockMvc .perform (patch ("/heavyresource/1") 
‘contentType (MediaType .APPLICATION JSON VALUE) 
.Content (objectMapper .writeValueAsString (updates)) 
) .andExpect (status () .isOk()); 


6.6 ”使 用 Vue.js 开 发 搜索 界面 


Vuejs 是 一 个 构建 数据 驱动 的 Web 界 面 的 渐进 式 框架 。 为 了 实现 微服 务 架构 ， 可 以 结合 Spring 框 架 封装 搜索 请 求 ， 展 现 搜索 结果 。 


首先 在 服务 器 端 安装 Vue 模 块 ， 先 查看 npm 版 本 号 。 


# npm -v 


npm 版 本 需要 3.0 以 上 的 ， 如 果 低 于 此 版 本 就 需要 升级 。 


可 以 使 用 NVM (Node Version Manager) 安装 或 者 升级 Nodejs。NVM 是 一 个 BASH 脚 本 ， 用 于 管理 多 个 发 布 的 Node.js 版 本 。 使 用 NVM， 可 以 安装 所 选择 的 任何 可 用 的 Nodejs 版 本 ;也 可 以 用 它 
卸载 Nodejs， 并 从 一 个 版 本 切换 到 另 一 个 版 本 。 


为 了 安装 NPM ， 可 以 用 root 用 户 身份 运行 以 下 命令 : 


# curl -o- https://raw.githubusercontent .com/creationix/nvm/v0.33.2/ 
install.sh | bash 


上 面 的 命令 将 把 NVM 库 克隆 到 ~/.nvm， 并 将 源 代码 行 添加 到 配置 文件 中 (~/.bash_profile、~/.zshrc、~/.profile 或 者 ~/.bashrc) 。 


运行 .bash_profile: 


# source ~/.bash profile 


验证 NVM 是 否 已 经 安装 : 


# command -v nvm 


如 果 安装 成 功 ， 应 该 输出 nvm。 


现在 ,可 以 安装 Node.js 和 npm 了 。 首 先 ， 运 行 以 下 命令 查看 可 用 的 Node.js 版 本 列表 : 


# nvm ls-remote 


然后 使 用 NVM 安 装 Node.js。 


# nvm install node 
# nvm list 


先生 成 package.json 文 件 : 


# npm init -f 


然后 安装 Vue 模 块 : 


# npm install vue -save 


在 全 局 安装 vue-cli: 


# npm install -g vue-cli 


检查 Vue 是 否 安装 成 功 : 


# vue -V 


然后 生成 一 个 叫做 Vue-Project 的 项 目 。 


# vue init webpack Vue-project 


进入 该 项 目 目录 : 


# cd Vue-Project 


然后 启动 项 目 : 


# npm run dev 


Unpkg.com 提 供 基于 npm 的 CDN 链 接 。https://unpkg.com/vuex 将 始终 指向 npm 的 最 新 版 本 。 


<head> 
<script src="https://cdn.bootcss.com/vue/2.5.13/vue.min.js"></script> 
</head> 
<body> 
<div id="app"> 
{{ message }} 
</div> 
<!-- JavaScript 代码 需要 放 在 尾部 (指定 的 HTML 元 素 之 后 ) --> 
<script> 
new Vue ({ 
el:'#app', 
gata: { 
message: 'Hello youl' // 消 息 
} 
]) 
</script> 
</body> 


提供 一 个 在 页 面 上 已 存在 的 DOM 元 素 作为 Vue 实 例 的 挂 载 目 标 。 可 以 是 CSS 选 择 器 ， 也 可 以 是 一 个 HTMLElement 实 例 。 


在 实例 挂 载 之 后 ， 元 素 可 以 通过 vm.$el 来 访问 。 


在 Vue.js 应 用 中 ， 使 用 Axios 调 用 REST API 从 服务 器 获取 数据 或 者 发 布 数据 到 服务 器 。 通 过 Axios 请 求 Spring Boot 提 供 的 数据 : 


<head> 
<script src="https://cdn.bootcss.com/vue/2.5.13/vue.min.js"></script> 
<script src="https://cdn.bootcss.com/axios/0.17.1/axios.js"></script> 
</head> 
<body> 
<div id="app"> 
{{ message }} 
</div> 
<!-- JavaScript 代码 需要 放 在 尾部 (指定 的 HTML 元 素 之 后 ) --> 
<script> 
var wm = new Vue({ 
el: '#app', 
data: { 
message: 'Hello Youl ' 
} 
Ds 


axios ({ 
method: 'get', 
Mel Ts 
}) .then (function (response) { 
console.1log (response); 
wm.message = response.data; 
}) .catch (function (error) { 
Console.1og (error) 
Ds 


</script> 
</body> 


因为 Axios 使 用 了 Promise 对 象 ， 所 以 可 以 将 它 与 异步 /等 待 结合 起 来 ， 得 到 一 个 简洁 且 易 于 使 用 的 APl。 


elasticsearchjjs 是 一 个 可 以 在 Nodejs 和 浏览 器 中 运行 的 Elasticsearch 客 户 端 。 创 建 一 个 客户 端 实例 ， 代 码 如 下 : 


var es = require('elasticsearch'); // 使 用 Node.js 中 的 require () 加 载 Elasticsearch 模 块 


Var client = new es.Client ({ 

host: 'localhost:9200' // 访 问 Elasticsearch 服 务 器 的 连接 参数 
:1l0g: 'trace' 
DD); 


在 指定 索引 名 称 和 类 型 上 执行 搜索 功能 的 函数 ， 代 码 如 下 : 


function search (myIndex, myType, searchText) 
return client.search({ 
index: myIndex, 
type: myType, 
body: { 
fields: {}, 
query: { 
match: { 
file content: searchText // 在 file_content 列 执行 搜索 
} 
} 


}) .then (function (resp) { 
return hits = resp.hits.hits; 
}, function (err) { 
Console.trace (err.message); 


]) 


export { search } 


上 面 的 代码 中 定义 了 一 个 名 为 search () 的 函数 并 将 其 导出 。 请 注意 ， 这 里 还 包含 返回 语句 实际 返回 该 函数 的 Promise 对 象 和 结果 。 


然后 在 main.js 中 ， 可 以 通过 search 这 个 名 字 导 入 search， 并 使 用 该 函数 : 


// ./main.js 
Var Vue = require('vue'); 


Vue.use (require ('vue-resource')); 
import { search } from './elasticsearch.js'; // 导 入 search 模 块 
new Vue ({ 

el: 'body', 

methods: { 


search: function() { 
Var result = 


search('someindex', 'sometype', 'Search text here' ) .then (function (res) { 


// 展示 搜索 结果 
}) 


6.7 ”使 用 Vue.js Paginator 插 件 实现 翻 页 


前 端 通 过 表格 显示 分 页 的 JavaScript 插 件 有 jqGrid 和 jQuery EasyUl 等 。 但 是 对 于 搜索 结果 页 来 说 ， 表 格 展示 不 够 灵活 。Vue.js Paginator 是 一 个 简 身 


现 数 据 ， 而 不 是 只 能 使 用 预定 义 的 表格 。Web 服 务 器 可 以 将 生成 页 面 发 给 浏览 器 ， 


然后 Vue 用 浏览 器 进行 泻 染 。 


但 功能 强大 的 插件 ， 因 为 它 使 用 户 可 以 控制 如 何 呈 


可 以 使 用 Vue 和 Java 做 一 个 搜索 网 站 ， 当 浏览 器 第 一 次 访问 该 网 站 时 ，Web 服 务 器 把 静态 的 HTML 页 面 和 JS 文件 等 发 给 浏览 器 ， 浏 览 器 单 击 跳 转 时 前 端 模拟 路 由 ， 然 后 使 用 javascript 的 fetch () 方法 


或 者 AJAX 发 送 HTTP 请 求 数据 ，Java 接 收 HTTP 请 求 后 将 返回 数据 给 前 端的 Vue，Vue 接 收 请 求 获取 数据 ， 重 新 泻 染 显示 页 面 。 后 端的 Java 服 务 只 负责 使 


在 http://hootlex.github.io/vuejs-paginator/ 中 可 以 看 到 一 个 具体 的 例子 。 在 页 面 中 显示 以 下 的 动物 信息 : 


REST 收 发 JSON 数 据 。 


/ /动物 编号 


wigs 1 
// 动 物 的 名 字 


name": "Macaw™ 


wie ,12 
"name": "Parrot" 


}, 


nie 
"name": "Ostrich" 


}, 


i> 14 
"name": "Pelican™ 


J 


"Lm 45 
"name": "Pigeon" 
} 
] 


Vuejs Paginator 插 件 需要 一 个 resource_url 生 成 简单 的 分 页 按钮 。 当 每 次 页 


面 被 更 改 或 获取 时 ， 都 会 发 出 一 个 


例如 ， 展 示 第 2 页 时 ，https://hootlex.github.io/vuejs-paginator/samples/animals2.json 的 内 容 如 下 : 


件 来 更 新 资源 。 


7/ 当前 页 的 编号 
// 最 后 一 页 的 编号 ， 可 以 根据 返回 结果 总 数 得 到 最 后 一 页 


"current page": 2, 
"last page": 3, 


的 编号 


"next page url":"https://hootlex.github.io/vuejs-paginator/samples/ 


animals3.json", // 下 一 页 


"prev page url":"https://hootlex.github.io/vuejs-paginator/samples/ 
工 n WE= 


animalsl1 .json", /上 一 页 
"data": [ // 数 据 
必 业 二 
"name": "Black bear" 


}, 


ee 15 
"name": "Goat" 


}, 


wigm> Dd, 
"name": "Cockatoo" 


}, 
了 全 全 
"name": "Duck" 


}, 
"ig": 10, 


导入 Vuejs Paginator 插 件 并 在 组 件 中 进行 定义 。 代 码 如 下 : 


new Vue ({ 
el; '#app', 
data () { 
return { 
// 资 源 变 量 
animals: [] 


// 在 这 里 定义 分 页 API 的 网 址 


resource url: 'http://hootlex.github.io/vuejs-paginator/samples/ 


animals1.json'" 


] 
components: { 
VPaginator: VuePaginator 


] 
methods: { 
updateResource (data) { 
this.animals = data 


在 搜索 结果 的 HTML 页面 中 使 用 Vuejs Paginator 插 件 显示 结果 数据 : 


<v-paginator :resource url="resource url" eupdate="updateResource"> 
</v-paginator> 


每 当 页 面 被 更 改 或 获取 时 ， 资 源 变量 将 包含 返回 的 数据 。 


<ul> 
<li v-for="animal in animals"> 
{{ animal.name }} 
</1iy 
</ul> 


可 以 编写 一 个 简单 的 Rest 后 端 来 配合 前 端 分 页 开发 测试 。 


在 org.arpit.java2blog.springboot.bean 中 创建 一 个 名 为 Country.java 的 Bean。 代 码 如 下 : 


Package org.arpit.java2blog.bean; 
public class Country{ // 国 家 类 


int id; 
String countryName; 


public Country (int i, String countryName) { 
super (); 

this.id = i; 

this.countryName = countryName; 

} 

public int getId() { 

return id; 

} 

public void setId(int id) { 

this.id = id; 

} 

public String getCountryName () { 

return countryName; 

} 

public void setCountryName (String countryName) { 
this.countryName = countryName; 

} 


在 包 org.arpitjava2blog.springboot 中 创建 下 面 一 个 名 为 CountryControllerjava 的 控制 类 : 


Package org.arpit.java2blog.springboot; 


import java.util.ArrayList; 
import java.util.List; 


import org.arpit.java2blog.springboot .bean.Country; 

import org.springframework.web.bind.annotation.PathVariable; 
import org.springframework.web.bind.annotation.RequestMapping; 
import org.springframework.web.bind.annotation.RequestMethod; 
import org.springframework.web.bind.annotation.RestController; 


@RestController 
public class CountryController { 

@RequestMapping (value = "/countries", 

method = RequestMethod.GET, headers="Accept=application/j son") 

public List<Country> getCountries () // 用 于 翻 页 测试 

{ 

List<Country> listOfCountries = new ArrayList<Country>(); 

listOfCountries=createCountryList () 7 

return listOfCountries; 


} 


// 创 建国 家 列表 的 工具 方法 

public List<Country> createCountryList () 

{ 

Country indiaCountry=new Country(l1, "India") 
Country chinaCountry=new Country(4, "China") 
Country nepalCountry=new Country(3, "Nepal") 
Country bhutanCountry=new Country(2, "Bhutan™"); 

List<Country> listOfCountries = new ArrayList<Country>(); 
listOfCountries.add (indiaCountry); 

listOfCountries.add (chinaCountry); 

listOfCountries.add (nepalCountry); 

listOfCountries.add (bhutanCountry); 

return listOfCountries; 


6.8 ”实现 搜索 接口 


本 节 首先 介绍 判断 输入 字符 串 编码 的 方法 ， 然 后 介绍 基本 的 布尔 逻辑 查询 、 指 定 范 围 的 查询 ， 以 及 搜索 结果 排序 等 实现 方法 。 


搜索 引擎 的 查询 关键 词 是 很 重要 的 一 个 参数 ， 这 个 参数 是 一 个 查询 字符 串 的 URL 编 码 。 一 个 非 ASCIl 字 符 的 URL 编 码 由 一 个 “%” 符 号 后 
的 URL 编 码 是 GBK 还 是 UTF-8 格 式 。 


跟着 两 个 十 六 进 制 的 数字 组 成 。 中 文 搜索 需要 判断 传 入 的 这 个 


回 


字符 


Pil 


在 符合 J2EE 标 准 的 Web 服 务 器 (例如 Tomcat) 中 ， 调 用 request.getQueryString () 方法 就 可 以 得 到 原始 提交 的 参数 。 比 如 发 送 : 


http://localhost/search.do?query=%BO%Al 


getQueryString () 方法 得 到 的 字符 串 是 : 


query=%BO%SAl 


然后 调用 编码 识别 方法 ， 用 正确 的 编码 来 解码 。 


String input = "%E6%B5%B7%E6%8ASASSE7SBDSI91"; 
String codingName=getEncoding (input); // 判 断 编码 
System.out .Println(URLDecoder.decode (input，codingName) ) ; // 用 正确 的 编码 来 解码 


主要 的 开发 工作 是 根据 输入 字符 串 判断 编码 是 GBK 还 是 UTF-8。 


GB2312 的 字符 编码 范围 在 %B0%A1 至 %F7%FE 之 间 ， 如 表 6-1 所 示 。 
表 6-1 汉字 编码 对 照 表 
[一 
字 符 编码 
啊 %B0%A1l 
阿 %B0%A2 
较 %B0%B0 
笑 %F7%FE 
汉字 Unicode 编 码 范围 从 \u4e00 到 \u9fa5。UTF-8 汉 字 URL 编 码 后 的 取 值 范围 在 : 


SE4%B8%80 — %E4%BFSBF 
SE5%B8%80 — %E5%BFSBF 
SE6%B8%80 — %E6%BFSBF 
SE7%80%80 — %E7%BFSBF 
SE8%80%80 — %E8%BFSBF 
SE9%80%80 — %E9%BESAS 


像 左 括号 和 右 括号 这 样 的 AsClI 编 码 小 于 128 的 字符 编码 都 小 于 %80， 例 如 左 括号 字符 编码 是 %28， 右 括号 字符 编码 是 %29。 而 所 有 的 汉字 编码 ， 无 论 是 UTF-8 或 GBK， 每 个 字 节 的 编码 都 是 大 于 或 等 
于 9%80。 


// 判 断 是 否 可 能 是 UTF-8 编 码 的 汉字 
public static boolean isUtf8 (String codel,String code2,String code3) { 
if (codel.compareTo("E4") >= 0 && codel.compareTo("E9") <= 0 && 
Code2 .compareTo ("80") >= 0 && code2.compareTo("BF") <= 0 && 
Code3.compareTo ("80") >=0 &&code3.compareTo("BF")<=0) { 
return true; 


return false; 


. 
// 判 断 是 否 可 能 是 GB2312 编 码 的 汉字 
public static boolean isGb2312 (String codel,String code2) { 
if (codel.compareTo("BO") >= 0 && codel.compareTo("F7") <= 0 && 
Code2 .compareTo ("A0") >=0 &&code2 .compareTo ("FF")<=0) { 
return truss 
} 


return false; 


} 

// 根 据 字符 列表 猜测 字符 编码 

public static String getEncodeByList (List<String> code) { 

if(code.size() >= 2 && code.size()%2 一 1 && code.size()%3 == 0) { 
return "utf8"7 

} 

else if(code.size() >= 2 && code.size()%2 == 0 && code.size()%3 != 0) { 
return "gbk"; 


else if(code.size()%6 == 0) { 
for (int m=0;m<code.size();m = m+6) { 

if( ! isUtf8 (code.get (m), code.get (m+1), code.get (m+2)) && 
isGbk (code.get (m), code.get (m+1)) && 
isGbk (code.get (m+2), code.get (m+3)) ) { 
return "gbk"; 

} else if(isUtf8 (code.get (m), code.get (m+1), code.get (m+2)) && 

! isGbk(code.get (m), code.get (m+1)) ) { 

return "utf8"7 


} 
if(! isUtf8 (code.get (m+3), code.get (m+4), code.get (m+5)) && 
isGbk (code.get (m+2), code.get (m+3)) && 
isGbk (code.get (m+4), code.get (m+5)) ) { 
return "gbk"; 
} else if(isUtf8 (code.get (m+3), code.get (m+4), code.get (m+5)) && 
lisGbk (code.get (m+2), code.get (m+3))) { 
return "utf8"7 
} 
} 
} 
return "utf8"7 


} 


根据 有 限 状态 机 的 思想 把 字符 串 切 分 成 数组 。 首 先 定义 状态 类 : 


public enum CharType { 


Enter, // 碰 到 
Cogel, // 碰 到 后 的 第 一 个 字符 
Code2, // 碰 到 后 的 第 二 个 字符 


然后 根据 上 一 个 状态 及 当前 的 字符 决定 下 一 个 状态 。 进 入 下 一 个 状态 时 ， 有 可 能 执行 判断 字符 编码 的 动作 。 代 码 如 下 : 


public static String getURLENcoding (String url) { 
List<String> codes = new ArrayList<String>(); 


CharType currentSate = null; // 记 录 当 前 状态 
char cl="'\0'» 

char c2="'\0'; 

for (int i=0; i<url.length(); ++i) { 


char currentChar = url.charAt (i); 
if(currentChar WW 
if(currentSate == CharType.Code2 ) { // 第 二 个 字符 
char[] sl = {cl1,c2}; 


codes.add (new String(s1)); 
} 
CurrentSate = CharType.Enter; 
jelse if(currentSate==CharType.Enter) { // 进 入 新 的 状态 
cl = currentChar; 
currentSate = CharType.Codel; 
jelse if(currentSate=—CharType.Codel) { // 第 一 个 字符 
C2 = currentChar; 
currentSate = CharType.Code2; 
Jelse if(currentSate==CharType.Code2) { // 第 二 个 字符 
char[] sl = {cl,c2}; 
codes.add (new String(s1)); 
currentSate = null; 
return getEncodeByList (codes); // 返 回 猜测 的 字符 编码 
} 
} 
if (currentSate==CharType.Code2) { 
char[] sl = {cl1,c2}; 
codes.add (new String(s1)); 
} 
return getEncodeByList (codes); // 返 回 猜测 的 字符 编码 
} 


6.8.2 布尔 搜索 


为 了 实现 字 词 混合 搜索 ， 先 根据 单字 列 和 词 列 得 到 两 个 查询 对 象 ， 然 后 再 通过 BoolQuery.should () 方法 整合 这 两 个 查询 对 象 。 代 码 如 下 : 


static void addShould (BoolQueryBuilder qb, PageContext context, String argName, 
String singleField, String wordField) { 
String aqString = context .getRequest () .getParameter (argName // 得 到 查询 参数 
if (StringUtils.isNotEmpty (gqString)) { 六 空 的 字符 串 
MatchPhraseQueryBuilder singleQB = 
QueryBuilders.matchPhraseQuery (singleField，qString); // 字 查询 
MatchPhraseQueryBuilder wordQB = 
QueryBuilders.matchPhraseQuery (wordField, qsString); // 词 查询 


QueryBuilder currentQB = 
QueryBuilders.boolQuery () .should (singleQB) .should (wordQB); 
qb.should (currentQB) ; 
} 
} 


然后 调用 addShould () 方法 合并 多 个 查询 条 件 。 


BoolQueryBuilder qb = QueryBuilders.boolQuery () 7 


// 从 输入 参数 repname 得 到 "repnameS" 和 "repname" 列 的 字 词 肖 合 间 对 条 
addShould (qb， context, "repname", "repnameS", "repname") 

// 从 输入 参数 repeditor 得 到 " repeditorS "和 "repeditor" 列 | 的 字 词 混合 查询 对 象 
addShould (qb, context, "repeditor","repeditorS","repeditor"); 


6.8.3 ”搜索 结果 重 定向 


为 了 统计 用 户 访问 哪 条 搜索 结果 ， 可 以 让 搜索 结果 页 展示 统计 的 用 户 访问 的 网 址 。 由 统计 的 用 户 访问 的 网 址 再 重 定向 到 显示 文档 的 网 址 。 


请 求 重 定向 到 另 一 个 页 面 的 最 简单 的 方法 是 使 用 响应 对 象 的 sendRedirect () 方法 。 例 如 : 


response.sendRedirect ("http://www.lietu.com"); 


sendRedirect () 方法 将 状态 码 和 新 页 面 的 响应 发 送 回 浏览 器 。 也 可 以 同时 使 用 setStatus () 和 setHeader () 方法 来 实现 同样 的 效果 。 


String site = "http://www.lietu.com"; 


response. setStatus (HttpServletResponse.SC MOVED TEMPORARILY); 
response. setHeader ("Location", site); 


下 面 的 例子 中 展示 Servlet 如 何 执行 页 面 重 定向 到 另 一 个 网 址 。 代 码 如 下 : 


import java.io.*; 
import javax.servlet.*; 
import javax.servlet.http.*; 


public class PageRedirect extends HttpServlet { 


public void doGet (HttpServletRequest request, HttpServletResponse 
response) 
throws ServletException, IOException { 


// 设 置 响应 内 容 类 2? 
response.setContentType ("text/html"); 


// 将 被 重 定向 的 新 网 址 


String site = new String("http://www.lietu.com"); 


response. setStatus (HttpServletResponse.SC MOVED TEMPORARILY); 
response.setHeader ("Location", site); 


现在 来 编译 上 面 Servlet 并 在 web.xml 文 件 中 创建 以 下 条 目 : 


<servlet> 
<servlet-name>PageRedirect</servlet-name> 
<servlet-class>PageRedirect</servlet-class> 
</servlet> 


<servlet-mapping> 
<servlet-name>PageRedirect</servlet-name> 
<url-pattern>/PageRedirect</url-pattern> 
</servlet-mapping> 


现在 使 用 URL 的 http://localhost:8080/PageRedirect 调 用 Servlet 接 口 ， 对 URL 的 访问 会 使 页 面 重 定向 到 http://www.photofuntoos.com 页 | 


回 


6.8.4 ”搜索 结果 排序 


title 做 过 切 分 ， 不 能 按 该 列 排序 。 


搜索 结果 可 以 按 单列 或 者 多 列 排序 ， 但 是 需要 保证 排序 列 是 不 做 切 分 处 理 的 ， 也 就 是 对 该 列 做 索引 的 时 候 设 置 Field.Jndex.NOT ANALYZED。 例 如 url 网 址 列 没有 做 过 切 分 ， 可 以 按 该 列 排序 ， 而 标题 列 


有 时 经 常 需要 按 日 期 倒序 排序 ， 为 了 支持 对 日 期 列 排序 ， 需 要 把 日 期 转换 成 统一 的 字符 串 格式 “yyyyMMddHHmmssSSS”。 如 果 日 期 精度 低 ， 字 符 串 长 度 相应 变 短 。 


索引 日 期 的 示例 如 下 : 


Date pubDate = rs.getDate ("pubDate"); 

Field f = new Field (“pubDate”, 
DateTools.dateTostring (pubDate, DateTools.Resolution.DAY), // 精 度 到 天 
Field.Store.YES, 
Field.Index.NOT ANALYZED); 


按 日 期 倒序 排序 的 示例 如 下 : 


Sort sort= new Sort (new SortField("pubDate",SortField.STRING, true)); 
ScoreDoc[] hits = searcher.search (query,null,1000, sort) .scoreDocs; 


也 可 以 对 多 个 字段 排序 ， 如 先 按 地 区 列 area 排 序 ， 然 后 按 类 别 type 排 序 : 


Sort sort= new Sort (new SortField[] {new SortField("area"), 
new SortField ("type")}); 
ScoreDoc[] hits = searcher.search (query,null,1000, sort) .scoreDocs; 


也 可 以 通过 SortComparatorSource 自 定义 排序 方法 。 


6.8.5 ”实现 相似 文档 搜索 


有 时 候 需要 检索 与 给 定 文档 (如 BBS 讨论 区 内 某 一 帖子 ) 相似 的 文档 。 例 如 ， 打 开 一 个 新 闻 网 页 ， 往 往 有 块 区 域 会 显示 和 这 篇 新 闻 相关 的 新 闻 。 对 一 个 卖 商品 的 网 站 来 说 ， 当 顾客 正在 浏览 一 件 商 品 


时 ， 如 果 能 把 和 这 件 商品 性 能 、 作 用 很 相近 的 商品 也 同时 罗列 在 网 页 的 左边 ， 如 果 顾 客 想 要 的 商品 正好 就 在 其 中 ， 那 么 这 个 网 站 的 营业 额 肯定 会 有 所 提高 。 


例如 ， 找 出 和 指定 电影 相关 的 电影 ， 代 码 如 下 : 


{ 


"more like this" : { 


"fields" : ["title", "description"], // 查 询 列 
moOGS 二 // 输 入 文档 
{ 
"_index" : "imdb"， // 索 引 名 称 
"type" : "movies", // 索 引 类 型 
wR 浊 // 输 入 文档 编号 
}, 
‘ 
Hs 
"min term freq" : 1, // 最 小 词 频 
"max query terms" : 12 // 查 询 词 最 多 12 个 


实现 原理 是 : 构造 一 个 MoreLikeThis (MLT) 的 对 象 mlt， 然 后 调用 mlt.like (1) ， 这 里 的 1 是 Lucene 内 部 的 文档 编号 。 然 后 搜索 一 下 ， 取 前 几 个 结果 就 是 与 此 文档 最 为 相似 的 。 


like (int docNum) 方法 返回 的 Query 是 怎么 产生 的 呢 ? 它 首先 根据 传 入 的 docNum 找 出 该 文档 里 去 除 停 用 词 后 的 高 频 词 ， 然 后 用 这 些 高 频 词 生成 Query， 最 后 把 Query 传 进 search 方 法 得 到 最 后 的 结 
。 主 要 思想 就 是 认为 这 些 高 频 词 足以 表示 文档 信息 ， 然 后 通过 搜索 得 到 最 后 与 此 doc 类 似 的 结果 。 


另外 一 个 简单 的 用 法 是 要 求 提供 与 给 定 的 文本 类 似 的 文档 。 代 码 如 下 : 


GET /_search 


"queryn: { 
"more like this" : { 
"fields" : ["title", "description"], 
"like" : "Once upon a time", // 查 询 文本 
"min term freq" : 1, 
"max query terms" : 12 


在 构造 MLT 之 前 ， 将 最 小 词 频 和 最 小 文档 频率 应 用 于 输入 词 选 择 中 。 如 果 输 入 文本 中 只 有 一 个 apple， 那 么 就 不 符合 MLT 的 限制 ， 因 为 最 小 词 频 设置 为 2， 如 果 将 输入 更 改 为 apple apple， 就 能 起 作用 
。 代 码 如 下 : 


POST /test index/_search 
{ 


"query": { 
"more like this": { 
"fields™: [ 
Eest" 
], 
"like text": "apple apple", // 输 入 文本 
"min term freq": 2, // 最 小 词 频 
"percent terms to match": 1, // 最 少 匹 配 多 少 个 词 
"min doc freq"; 1 // 最 小 文档 频率 


Java API 调 用 MLT 的 代码 如 下 : 


String[] fields = { "title", "description" }; // 查 询 列 

String[] likeTexts = { "Once upon a time" }; // 查 询 文 本 

Item[] 1ikeItems = {new MoreLikeThisQueryBuilder.TItem()}; 

MoreLikeThisQueryBuilder queryBuilder = new MoreLikeThisQueryBuilder( 
fields, likeTexts, likeItems); // 查 询 对 象 


6.9 Suggester 搜 索 词 提示 


。 根 据 使 用 场景 的 不 同 ，Elasticsearch 里 设计 了 4 种 类 别 的 Suggester， 分 别 是 


Suggesters (搜索 词 提 示 推 荐 器 ) 基本 的 运作 原理 是 将 输入 的 文本 分 解 为 词 ， 然 后 在 索引 的 字典 里 查找 相似 的 词 并 返回 


Term Suggester、 Phrase Suggester、Completion Suggester 和 Context Suggester。 


里 的 词 ， 然 后 组 合 在 一 起 返回 给 用 户 前 端 即 可 。 


F 切 分 出 来 的 单个 词 提供 建议 ， 并 不 会 考虑 多 个 词 之 间 的 关系 。API 调 用 方 只 需 为 每 个 词 挑选 options (选项 


Term Suggester 只 基于 


Phrase Suggester 在 Term suggester 的 基础 上 会 考量 多 个 词 之 间 的 关系 ， 比 如 是 否 同时 出 现在 索引 的 原文 里 ， 其 相 邻 程度 及 词 频 如 何等 。 


有 限 状态 转换 (FST) 查找 提示 词 。FST 会 被 Elasticsearch 装 载 到 内 存 中 进行 前 缀 查找 ， 速 度 极 快 ， 因 此 FST 只 能 用 于 前 缀 查找 。 


Completion Suggester 使 


。 例 如 ， 想 要 根据 品牌 提示 过 滤 商 品 ， 或 者 想 根据 歌曲 的 风格 提示 歌曲 名 称 。 


Context Suggester 根 据 索引 中 所 有 的 文档 来 推荐 查询 词 ， 但 通常 希望 通过 某 些 标准 来 筛选 和 (或 ) 提升 提示 词 


为 了 实现 建议 过 滤 和 (或 ) 提升 ， 可 以 在 配置 完 字段 时 添加 上 下 文 映射 。 可 以 为 自动 完成 字段 定义 多 个 上 下 文 映射 。 每 个 上 下 文 映射 都 有 唯一 的 名 称 和 类 型 (有 文本 类 别 和 地 理 两 种 类 型 ) 。 上 下 文 映 


射 在 字段 映射 的 contexts 参 数 下 进行 配置 。 


下 面 定义 类 型 ， 每 个 类 型 自动 完成 字段 的 一 个 上 下 文 映射 。 


EUT Place 
{ 
"mappings": { ， 
nshops™” : { // 商 品 索 引 库 
"properties" :; { 
"suggest™" : { 
"type" : "completion", // 自 动 完成 字段 
"contexts": [ // 上 下 文 映射 
{ 
"name": "place type", 


"type": "category" 
} 


然后 定义 名 为 place_type 的 类 别 上 下 文 ， 从 cat 字 段 读 取 类 别 。 


PUT place path category 


"mappings": { 
"ghope™ * { 
"properties" :; { 
"suggest™" : { 
"type" : "completion", 
"contexts": [ 
{ 
"name": "place type", 
"type": "category", 
path"s eat™ // 从 cat 字 段 读 取 类 别 


通过 类 别 上 下 文 ， 可 以 将 一 个 或 多 个 类 别 与 索引 时 的 提示 词 相关 联 。 在 查询 时 ， 可 以 通过 相关 类 别 过 滤 和 提升 提示 词 。 


如 果 定义 了 路 径 (path) ， 那 么 将 从 文档 中 的 路 径 中 读 取 类 别 ， 否 则 必须 在 提示 字段 中 送出 。 代 码 如 下 : 


PUT place/shops/1 
{ 


"suggest": { 
"input": ["timmy's", "starbucks", "dunkin donuts"], // 输 入 提示 词 
"contexts": { 
"place type": ["cafe", "food"] // 直 接 给 出 提示 词 列表 


} 


6.9.1 拼音 提示 


为 了 支持 汉语 拼音 感应 ， 需 要 把 所 有 的 词 生成 为 拼音 列 。Trie 树 可 以 看 成 关键 词 和 值 的 映射 。 拼 音 列 和 词 本 身 都 可 以 作为 关键 词 ， 值 这 一 列 则 存放 词 原型 。 例 如 对 于 “厦门 ”这 个 词 ， 会 存储 两 个 关键 


词 和 值 的 映射 。 


xiamen -> 厦门 


厦门 -> 厦门 


这 样 当 用 户 输入 “ 厦 ” 或 “xia” 时 都 可 能 提示 出 “厦门 ”这 个 词 。 


对 于 基本 的 中 文 词 提示 来 说 ， 关 键 词 和 值 都 是 一 样 的 。 另 外 ， 注 音程 序 把 中 文 词 转换 成 拼音 ， 这 部 分 数据 支持 汉语 拼音 感应 功能 。 


因为 存在 多 音字 ， 按 词 注音 会 有 好 的 结果 。 可 以 在 Trie 树 的 值 域 中 存储 一 个 词 对 应 的 拼音 。 


public static String yin(String sentence){ // 传 入 一 个 字符 串 作 为 要 处 理 的 对 象 
int senLen = sentence.length(); // 首 先 计 算出 传 入 的 这 句 话 的 字符 长 度 


int i = 0; // 用 来 控制 匹配 的 起 始 位 置 的 变量 
StringBuilder result = new StringBuilder (senLen) 
TernarySearchTrie.MatchRet matchRet = new TernarySearchTrie. MatchRet 


(20) 

while (i < senLen){ // 如 果 i 小 于 此 句 话 的 长 度 就 进入 循环 
boolean match = dic.matchLong (sentence, i，matchRet);  // 最 大 长 度 匹 
if (match){ // 已 经 匹配 上 ， 按 词 注音 


i = matchRet .end; 
result .append (matchRet .data); 


} else // 如 果 没 有 找到 匹配 上 的 词 ， 就 按 单字 注音 
{ 

result .append (ziYin.zi2Yin (sentence.charAt (i))); 

++i7 // 下 次 匹配 点 在 这 个 字符 之 后 


} 
return result.toString(); 


} 


6.9.2 ”部署 总 结 


提示 词 词典 suggestDic.txt 可 以 放 在 WEB-INF/classes/dic/ 路 径 下 。AutoCompleteServlet 程 序 可 以 放 在 WEB-INF/lib/ 路 径 下 ， 通 过 web.xml 发 布 。 搜 索 界 


jquery.ajaxQueue.js、jquery.autocomplete.css 和 jquery.autocomplete.js 可 以 放 在 ROOT/js 搜 索 路 径 下 。 


根据 不 同 的 用 户 ， 提 示 词 也 不 一 样 。 例 如 ， 同 样 输入 “大 ” 字 ， 对 于 影迷 ， 会 提示 “大 话 西游 ”， 而 对 于 美食 爱好 者 ， 可 


6.9.3 ”相关 搜索 


四 


到 的 JavaScript 脚 本 jquery.js、 


能 会 提示 “大 福 ” (一 种 日 式 甜品 ) 。 


在 相关 搜索 的 方法 中 ， 一 种 是 从 搜索 日 志 中 挖掘 字面 相似 的 词 作为 相关 搜索 词 列表 。 首 先 从 一 个 给 定 的 词 中 挖掘 出 多 个 相关 搜索 词 ， 可 以 用 编辑 距离 自动 机 〈 即 程序 ) 从 词 表 中 查找 一 个 词 的 字面 相似 
词 ， 如 果 候选 的 相关 搜索 词 很 多 ， 就 要 筛选 出 最 相关 的 10 个 词 。 下 面 利用 Lucene 搜 索 的 方法 筛选 出 与 给 定 词 最 相关 的 词 。 示 例如 下 : 


private static final String TEXT FIELD = "text"; 


/** 
eparam words 候选 相关 词 列表 

@param word 要 找 相 关 搜 索 词 的 种 子 词 

@return 

@throws IOException 

* Qthrows ParseException 

2 

static String[] filterRelated(HashSet<String> words, String word) { 
StringBuilder sb = new StringBuilder(); 


站 外 外 外 外 站 


for (int i=0;i<word.length();++i){ 
sb.append (word. charAt (i)); 
sb.append (™ "); 


} 

// 建 立 内 存 索引 

RAMDirectory store = new RAMDirectory () 7 

IndexWriter writer = new IndexWriter(store, new StandardAnalyzer(), true); 


for (String text:words) { 
Document document = new Document (); 
Field textField = 
new Field(TEXT FIELD, text, Field.Store.YES, Field.Index.TOKENIZED); 
document .add (textField); 
writer.addDocument (document); 
上 


writer.close(); 
IndexSearcher searcher = new IndexSearcher (store); 


QueryParser queryParser = new QueryParser (TEXT FIELD, 
new StandardAnalyzer () ) 7 
Query query = queryParser.parse (sb.toString () ) ;// 查 询 给 定 的 词 


Hits hits = searcher.search (query); 
int maxRet = Math.min(10, hits.length()); 


String[] relatedWords = new String [maxRet]; 
for (int i = 0; i < maxRet ; i++) { 
Document document = hits.doc(i); 
String text = document .get (TEXT _ FIELD) ; // 查 询 结果 就 是 相关 搜索 词 
yYstem.out .Println (text) 7 
relatedWords[i]=text; 
上 
searcher.close (); 
store.close (); 


return relatedWords; 


整理 出 以 下 相关 词 表 ， 第 1 列 是 关键 词 ， 后 续 是 10 个 以 内 的 相关 搜索 词 : 


手机 定位 跟 中 % 手 


机 $ 手 机 定位 $ 手 机 定位 仪器 
喷绘 材 米 活 g% 我 店 电话 
厦门 房产 s 厦 门 租房 $ 厦 门 新 闻 % 厦 房产 青岛 房产 厦门 $ 恒 雄 房 产 


送水 果 $ 送 水 $ 水 果 
三 星 传 真 机 % 三 星 手 机 


另外 一 种 方法 是 可 以 把 多 个 用 户 共同 查询 的 词 看 成 相关 搜索 词 ， 需 要 有 记录 用 户 IP 的 搜索 日 志 才 能 实现 ， 类 似 推 荐 系统 。 例 如 ， 超 市 把 尿布 与 啤酒 放 在 一 起 卖 ， 因 为 这 是 关联 规则 挖掘 出 的 结果 。 


对 这 个 结果 的 解释 是 : 在 美国 ， 一 些 年 轻 的 父亲 下 班 后 经 常 到 超市 去 买 婴儿 尿布 ， 而 他 们 中 有 30% ~ 40% 的 人 同时 会 为 自己 买 一 些 啤 酒 。 产 生 这 一 现象 的 原因 是 : 美国 的 太太 们 常 叮嘱 她 们 的 丈夫 下 班 


后 为 小 孩 买 尿布 ， 而 丈夫 们 在 买 完 尿布 后 又 随手 带 回 了 他 们 喜欢 的 啤酒 。 


户 搜索 “啤酒 ”的 时 候 ， 提 示 他 是 否 还 要 找 “ 尿 布 。， 就 是 使 用 了 关联 规则 挖 握 。ARtool 是 一 个 挖掘 关联 规则 的 算法 工 


集 。 然 后 可 以 通过 RelatedEngine 类 查找 某 个 关键 词 的 相关 词 。 代 码 如 下 : 


public static void main (String[] args) throws Exception { 
RelatedEngine re =new RelatedEngine (new File("D:/dic/relatedwords. 
txt")); 
String word = "徐家汇 "; 
String[] relatedWords = re.getRelated (word); ”// 得 到 给 定 词 的 相关 搜索 词 
for (String w : relatedWords) { 

System.out .println (w); 
} 


输出 相关 搜索 词 如 下 : 


[价格 是 
上 房 徐家汇 路 附近 有 吗 


最 后 通过 自 定 义 的 标签 (Tag) RelatedTag 在 JSP 页 面 显示 出 相关 搜索 词 。 


在 标签 库 描述 符 中 定义 Tag: 


<tag> 
<name>relatedWords</name> 
<tag-class>com.bitmechanic.1istlib.RelatedTag</tag-class> 
<description></description> 


<attribute> 
<name>index</name> 
<required>false</required> 
<rtexprvalue>true</rtexprvalue> 
</attribute> 


<attribute> 
<name>url</name> 
<required>false</required> 
<rtexprvalue>true</rtexprvalue> 
</attribute> 


<attribute> 
<name>query</name> 
<required>true</required> 
<rtexprvalue>true</rtexprvalue> 
</attribute> 


</tag> 


最 后 在 JSP 页 面 中 引用 标签 : 


<list:relatedWords index="D:/search/related" url="Search.jsp" query=" 
<%=query%>"/> 


6.9.4 ”再 次 查找 


有 时 经 常 需要 从 搜索 结果 中 缩小 范围 再 次 查找 信息 。 一 个 实现 方法 是 通过 加 号 (+) 连接 符 连接 上 次 查询 词 和 当前 查询 词 。 例 如 ，inputstri 忆 录 了 上 次 查询 词 ，queryString 记 录 了 当前 查询 词 。 实 现代 
码 如 下 : 


if (refind) // 如 果 需 要 再 次 查找 
queryString = " + ("+queryString+") + ("+inputstr+")"; 


使 用 这 个 新 的 查询 词 就 可 以 实现 再 次 搜索 的 功能 。 


6.9.5 ”搜索 日 志 


搜索 日 志 是 用 来 分 析 用 户 搜索 行为 和 信息 需求 的 重要 依据 。 一 般 记 录 如 下 信息 : 


“ 搜索 关键 字 ; 

“ 用 户 来 源 IP; 

“ 本 次 搜索 返回 结果 数量 ; 
“ 搜索 时 间 ; 


“ 其 他 需要 记录 的 应 用 相关 信息 。 


IP 地 址 是 最 容易 获取 的 信息 ， 但 其 局 限 性 也 较为 明显 : 伪 IP、 代 理 、 动 态 IP、 局 域 网 共享 同一 公 网 IP 出 口 ….. 这 些 情况 都 会 影响 基于 IP 来 识别 用 户 的 准确 性 ， 所 以 IP 识 别 用 户 的 准确 性 比较 低 ， 目 前 一 般 
不 会 直接 采用 iP 来 识别 用 户 。 


我 们 可 以 通过 Cookie 记 录用 户 ID。Cookie 是 从 用 户 端 存放 的 Cookie 文 件 记录 中 获取 的 ， 这 个 文件 里 面 一 般 在 包含 一 个 Cookieid 的 同时 也 会 记 下 用 户 在 该 网 站 的 Userid (如 果 网 站 需要 注册 登录 并 且 该 
曾经 登录 过 这 个 网 站 且 Cookie 未 被 删除 ) ， 所 以 在 记录 日 志文 件 中 的 Cookie 项 时 候 ， 可 以 优先 去 查询 Cookie 中 是 否 含有 用 户 1D 类 的 信息 。 如 果 存 在 则 将 用 户 1D 写 入 日 志 的 Cookie 项 ; 如 果 不 存在 则 查 
乒 是 否 有 Cookieid; 如 果 有 Cookieid 则 记录 ; 如 没有 Cookieid 则 记 为 ”-”。 这 样 日 志 中 的 Cookie 就 可 以 直接 作为 最 有 效 的 用 户 唯一 标识 符 而 被 统计 了 。 当然 这 里 需要 注意 该 方法 只 有 网 站 本 身 才 能 够 实 
现 ， 因 为 用 户 ID 作 为 用 户 隐私 信息 只 有 该 网 站 才 知道 其 在 Cookie 的 设置 及 存放 位 置 ， 第 三 方 统计 工具 一 般 很 难 获取 。 


通过 以 上 的 方法 实现 用 户 身份 的 唯一 标识 后 ， 我 们 可 以 通过 一 些 途径 来 采集 用 户 的 基础 信息 、 特 征 信息 及 行为 信息 ， 然 后 为 每 位 用 户 建立 起 详细 的 简介 。 具 体 途径 有 : 


. 用 户 注册 时 填写 的 用 户 注册 信息 及 基本 资料 ; 

从 网 站 日 志 中 得 到 的 用 户 浏览 行为 数据 ; 

. 从 数据 库 中 获取 的 用 户 网 站 业务 应 用 数据 ; 

. 基于 用 户 历史 数据 的 推导 和 预测 ; 

. 通过 直接 联系 用 户 或 者 用 户 调研 的 途径 获得 的 用 户 数据 ; 


“ 由 第 三 方 服务 机 构 提 供 的 用 户 数据 。 


户 基本 信息 的 采集 ， 可 以 通过 网 站 分 析 的 各 种 方法 在 网 站 中 实现 一 些 有 价值 的 应 


通过 用 户 身份 识别 及 
“ 基于 用 户 特 征 信息 的 用 户 细 分 ; 
基于 用 户 的 个 性 化 页 面 设置 ; 

“ 基于 用 户 行为 数据 的 关联 推荐 ; 


“ 基于 用 户 兴 趣 的 定向 营销 。 


志 功 能 来 实现 。Logback 提 供 了 3 个 jar 包 ,分 


Logback (http://logback.qos.ch/) 的 
其 他 logging 系 统 去 替换 它 。 当 然 logback-classic 依 赖 于 slf4j-api。logback- 


为 了 不 影响 即时 搜索 的 速度 ， 一 般 不 把 搜索 日 志 记录 直接 记录 在 数据 库 中 ， 而 是 写 在 文本 文件 中 。 这 里 推荐 使 
他 两 个 包 依赖 于 这 个 包 。logback-classic 是 SLF4J 原 生 的 实现 ， 所 以 可 以 


别 是 Core、classic 和 access。 其 中 Core 是 基础 ， 
access 与 servlet 容 器 集成 ， 提 供 http-access 的 log 功 能 。SLF4J (http://www.slf4j.org/) 几乎 已 经 称 为 业界 日 志 的 统一 接口 


这 里 的 项 目 一 共 需 要 3 个 包 : slf4j-api-1.6.1jar、logback-classic-0.9.21.jar 和 logback-core-0.9.21.jar。Logback 通 过 logback.xml 进 行 配 置 。 


志 开 始 的 时 候 ， 前 一 天 的 日 志 将 生成 一 个 新 文件 。 


这 里 把 当前 日 志 写 到 D: /logs/log 文 件 中 ， 新 一 天 的 日 


在 搜索 类 中 初始 化 日 志 


private static Logger logger = LoggerFactory.getLogger (SearchBbs .class) 7 


户 IP 及 查询 时 间 等 : 


然后 当 用 户 执行 一 次 搜索 时 ， 记 录 查 询 词 、 返 回 结果 数量 、 


logger.info( queryt"|"tdesc.count+"|"+"bos"+"|"+ip); 


日 志文 件 log.txt 记 录 的 结果 示例 如 下 : 


什 := 儿 1371topic1124.1.0.012007-11-21 12:25:36 
体 


是 新 生 
是 新 生 儿 1281bbs1124.1.0.012007-11-21 12:25:42 
181topic1124.1.0.012007-11-21 12:26:05 
21shangjial124.1.0.012007-11-21 12:26:05 
145|bbs|124.1.0.0|2007-11-21 12:26:06 
181topic1124.1.0.012007-11-21 12:30:33 


怀 
怀 
性 
怀 


粘 粘 粘 娄 从 从 


户 搜索 词 ， 第 2 列 是 搜索 返回 结果 数量 ， 第 3 列 是 搜索 类 别 ， 第 4 列 是 IP 地 址 ， 第 5 列 是 搜索 的 时 间 。 


其 中 ， 第 1 列 是 
然后 定义 搜索 日 志 统计 表 ， 例 如 我 们 需要 统计 搜索 最 多 的 词 ， 可 以 把 搜索 最 多 的 词 放 在 keywordAnalysis 表 中 ， 如 下 : 


CREATE TABLE [keywordAnalysis] ( 
[searchTerms] [varchar] (50) 
[AccessCount] [int] NULL ， 
[Result] [int] NULL 


) 


6.10 ”Word2vec 挖 扬 相 关 搜 索 词 


层次 的 特征 表示 。 


可 以 把 词 作为 特征 ， 通 过 Word2vec 把 特征 映射 到 K 维 向 量 空间 ， 为 文本 数据 寻求 更 深 
Word2vec 使 用 的 是 Distributed representation 的 词 向 量 表示 方式 。 其 基本 思想 是 通过 训练 将 每 个 词 映射 成 K 维 实数 向 量 (K 是 模型 中 的 超 参数 ) ， 通 过 词 之 间 的 距离 (如 cosine 相 似 度 、 欧 氏 距 离 等 ) 


一 个 三 层 的 神经 网 络 ， 即 输入 层 一 隐 层 一 输出 层 。 
见 的 词 排 在 最 前 面 。 接 着 构建 一 个 哈 夫 曼 树 ， 将 低频 词组 合成 具有 内 部 节点 的 更 长 的 根 到 叶子 节点 的 路 径 ， 这 样 做 的 结果 


来 判断 它们 之 间 的 语义 相似 度 ， 其 采 
每 个 单词 计数 。 然 后 将 词汇 放 入 排序 数组 ， 最 常 


首先 ， 算 法 对 整个 语料库 中 的 
是 频率 最 高 的 词 有 最 短 的 编码 。 


6-1 所 示 ， 可 以 沿 着 哈 夫 曼 树 从 根 节点 一 直 走 到 叶子 节点 的 词 w2 处 。 


如 图 


n(w,,1) 


Ww 1 WwW, W; Ww A 1 ww 


图 6-1 哈 夫 曼 树 


在 哈 夫 曼 树 中 ， 采 用 二 元 逻辑 回归 的 方法 计算 核心 词 的 概率 ， 即 规定 沿 着 左边 的 子 树 走 ， 那 么 就 是 负 类 ( 哈 夫 曼 树 编码 1) ， 沿 着 右边 的 子 树 走 ， 那 么 就 是 正 类 ( 哈 夫 曼 树 编码 0) 。 判 别 正 类 和 负 类 的 
方法 使 用 sigmoid () 函数 ， 即 : 


P(+)=o(x,0)= 


一 
—xX_0 
1 二 ev 


其 中 ，xw 是 训练 样本 (w，context (w) ) 中 context (w) 的 词 向 量 ， 而 6 则 是 我 们 需要 从 训练 样本 求 出 的 逻辑 回归 的 模型 参数 。 那 么 被 划分 为 左边 的 子 树 而 成 为 负 类 的 概率 为 1-P (+) ， 对 于 图 6-1 


中 的 wz， 其 哈 夫 曼 编 码 为 110， 我 们 可 以 得 到 其 概率 为 : 


(LACD)o CLANDDC PH 


在 wz 的 计算 路 径 中 共 分 3 步 完 成 ， 这 样 进行 梯度 计算 的 公式 为 : 


3 

| ] ] 
[p(w,)=(— TD Ml= T ) T 
i=] l+e.™*”" 


模型 的 目的 就 是 最 小 化 上 面 的 概率 。 针 对 一 个 训练 样本 (w2，context (w2) ) ， 上 式 中 xw 为 w2 语 境 中 的 词 ，6 为 内 部 节点 的 参数 。 对 于 所 有 的 训练 样本 ， 我 们 期 望 最 大 化 所 有 样本 的 似 然 函数 乘积 。 


skip-gram 模 型 在 Word2vec 中 的 具体 实现 如 下 。 


输入 : 已 经 完成 分 词 的 中 文 语 料 或 者 英文 语 料 ， 词 向 量 的 维度 大 小 为 200， 窗 口 大 小 〈 即 多 少 个 词 ) 为 5，Skip-gram 的 上 下 文大 小 2Cc=8， 步 长 alpha=0.025。 


输出 : 所 有 的 词 向 量 w， 哈 夫 曼 树 的 内 部 节点 模型 参数 6。 
实现 代码 如 下 : 


private void skipGram(int index, List<WordNeuron> sentence, int b, 
double alpha) { 


WordNeuron word = sentence.get (index); //word 为 待 处 理 词 ， 即 样本 (w, context (w) ) 中 的 w 
int a, c= 0; 
for (a = by a< windowsize * 2+1-b; at+t) { //D 为 随机 赋值 ， bE {1,2, 3, 4} 


if (a == windowSize) { 


continue; 
} 

C = index - windowSize + a; 
if (c <0 || c >= sentence.size()) { 
continue; 

} 
double[] neule = 
List<HuffmanNode> pathNeurons = 


new double[vectorSize]; // 误 差 项 
word.getPathNeurons (); 


// 获 取 路 径 中 的 节点 


WordNeuron we = sentence.get (c); // 获 取 窗 口 词 
for (int neuronIndex = 0; neuronIndex < PathNeurons .size() - 1; 
neuronIndex++) { 
// 获 取 待 处 理 词 的 内 部 节点 8 
HuffmanNeuron out = (HuffmanNeuron) pathNeurons.get (neuronIndex); 
double £ = 0; 
for (int j = 0; j < vectorSize; j++) { 
f += we.vector[j] * out.vector[j]; 
} 
if (f <= -MAX EXP || f >= MAX EXP) { 
continue; 加 
} else { 
f= (f + MAX EXP) * (EXP TABLE SIZE / MAX EXP / 2); 
£f = expTable[ (int) f£]; 
} 
HuffmanNeuron outNext = (HuffmanNeuron) pathNeurons.get 
(neuronIndex+1); 


double g = (1 - outNext.code - f) * alpha; // g 为 梯度 和 学 习 率 的 乘积 

for (c= 0; 己 攻 VectorSizey C++) { 
neule[c] += g * out.vector[c]; 

} 

for (c= 0; C < vectorSizey c++) { 
out.vector[c] += g * we.vector[c]; 


// 更 新 内 部 节点 参数 8 


for (int j = 0; j < vectorSize; j++) 
we.vector[j] += neule[j]; 


// 更 新 窗口 中 的 词 
} 


// 随 机 赋值 ，cE {1,2, 3, 4}， 因 此 称 为 skip-gram 


可 以 使 用 最 大 堆 (PairingHeap) 找 距离 最 近 的 k 个 词 。 
首先 用 有 拒 虫 抓 取 学 习 用 的 语料库 。 语 料 库 格式 是 : 每 行 一 句 话 ， 每 句 话 中 的 词 用 空格 分 开 。 使 用 HttpClient 从 必 应 词典 抓 取 句 子 的 代码 如 下 : 


public static ArrayList<String> getPairsBYWordaAndOffset (String word, 
int pageOffet, 

CloseableHttpClient httpclient) throws Exception { 
String urlAjax = "http://cn.bing.com/dict/service?q=" 

+ URLENCoOder .encode (word, "UTF-8") + "&offset=" 

+ URLENCoder .encode (pageOffet + "", "UTF-8") + "&dtype=sen"; 
HttpGet httpgetAjax = new HttpGet (urlAjax); // 发 送 GET 请 求 
HttpResponse responseAjax = httpclient .execute (httpgetAjax); // 得 到 响应 结果 


HttpEntity entityAjax = responseAjax.getEntity(); 


ArrayList<String> ret = new ArrayList<String>(); 
if (entityAjax != null) { 
// 读 入 内 容 流 并 以 字符 串 形式 返回 ， 这 里 指定 网 页 编码 是 UTF-8 
// 网 页 的 Meta 标 签 中 指定 了 编码 
String content = EntityUtils.toString (entityAjax, "utf-8"); 
Document doc = Jsoup.parse (content); 
Elements elementsLi = doc.select(".se 1i"); 


if (elementsLi == null || elementsLi.size() == 0) { 
return null; 
} 
// Jsoup 处 理 提取 目标 内 容 
for (Element pairs : elementsLi) { 
if (pairs.select(".se 1i1").size() 一 0) { 
continue; 
} 
Element s = pairs.select(".se 1i1").first(); 
十 {sselect(".sen en").size() = 0) 1 
continue; 
} 
Element senCn = s.select(".sen cn") .first();  // 找 出 中 文 例句 
List<Element> nodes = senCn.children(); 
StringBuilder sb = new StringBuilder(); // 句 子 缓存 


for (Element n:nodes){ 


sb.append (n.text () +" "); // 空 格 分 隔 词 
ret .add (sb.toString() .trim()); 


EntityUtils.consume (entityAjax); 


} 


return ret; // 返 回 所 有 的 句子 
} 


// 关闭 内 容 流 


机 器 学 习 软 件 包 Deeplearning4J (下 载 地 址 是 https://deeplearning4j.org/) 中 包含 了 Word2vec 的 实现 。 新 建 一 个 项 目 , 使 


Maven 导 入 Deeplearning4J 相 关 的 jar 包 。 


<properties> 
<nd4j .version>0.7.1</nd4j .version> 
<d14j .version>0.7.1</d14j .version> 
</properties> 


<dependencies> 
<dependency> 
<groupId>org.deeplearning4j</groupId> 
<artifactId>deeplearning4j-ui-model</artifactId> 
<version>${d14j .version}</version> 
</dependency> 
<dependency> 
<groupId>org.deeplearning4j</groupId> 
<artifactId>deeplearning4j-nlp</artifactId> 
<version>${d14j .version}</version> 
</dependency> 
<dependency> 
<groupId>org.nd4j</groupId> 
<artifactId>nd4j-native</artifactId> 
<version>$ {nd4j .version}</version> 
</dependency> 
</dependencies> 


使 用 如 下 的 代码 挖 所 英文 相关 词 。 


public class Word2VecDemo { 


mm 


Private String inputFilePath 
"output/word2vec.bin"; 


private String modelFilePath 


public static void main (String[] args) throws IOException { 


new Word2VecDemo () ; 
// 训 练 模型 


Word2VecDemo word2VecDemo = 
word2VecDemo .train(); 


// 读 入 模型 


Word2Vec word2VecModel = 
WordVectorSerializer.readWord2VecModel] (new File (word2VecDemo .modelFilePath)); 
// 返 回 10 个 最 相关 的 词 
Collection<String> list = word2VecModel .wordsNearest ("boy" , 10); 
System.out .Println(" boy: "+ list); // 输 出 相关 词 列 表 
} 


public void train() throws IOException { 
// 使 用 换行 作为 句子 分 隔 符号 
SentenceIterator SentenceIterator = 
new FileSentenceIterator (new File (inputFilePath) ) 7 
TokenizerFactory tokenizerFactory = new DefaultTokenizerFactory (); 
tokenizerFactory.setTokenPreProcessor (new CommonPreprocessor () ) 7 


Word2Vec vec = new Word2Vec.Builder () 
.minWordFrequency (2) 
.1ayerSize (300) 


.windowSize (5) // 设 定 窗口 大 小 

.Seed (42) 

.epochs (3) 

.elementsLearningAlgorithm(new SkipGram<VocabWord>()) // 学 习 算 法 


.iterate (sentenceIterator) 
.tokenizerFactory (tokenizerFactory) 
,build(); // 构 建 训练 器 
vec.fit (); 
// 保 存 模型 


WordVectorSerializer.writeWord2VecModel (vec, "output/word2vec.bin"); 


6.11 部署 网 站 


服务 器 端 操作 系统 推荐 采用 Linux。Linux 有 各 种 版 本 ， 这 里 以 免费 的 CentOS 为 例 。 我 们 用 静态 IP 地 址 配置 一 个 网 络 连接 的 IPv4 


下 : 


属性 。 例 如 ， 静 态 IP 地 址 是 201.147.214.149。eth0 配 置 文件 的 内 容 如 


# cat /etc/sysconfig/network-scripts/ifcfg-ethO 
TYPE=Ethernet 
DEVICE=eth0 
HWADDR=00:2g:fc:1b:c3:9e 
ONBOOT=yes 

USERCTL=no 

IPV6INIT=no 

PEERDNS=yes 
NETMASK=255.255.255.128 
IPADDR=201.147.214.149 
GATEWAY=201.147.214.254 


启动 网 络 服务 : 


#service network restart 


如 果 托管 的 机 器 要 更 换 ， 可 以 先 远程 设置 好 网 卡 的 配置 ， 然 后 再 更 换 机 器 ， 重 新 启动 机 器 ， 同 时 修改 DNS 中 的 IP 地 址 。 


6.11.1 部署 到 Web 服 务 器 


配置 Java 环 境 ， 设 置 环境 变量 JAVA_HOME 和 PATH 的 值 。 修 改 脚本 文件 /etc/bashrc: 


#vi /etc/bashrc 


增加 如 下 行 : 


export JAVA HOME=/usr/local/jdk1.8.0 21 
export PATH=$ JAVA_HOME, /bin:$PATH 


从 Tomcat 官 方 网 站 http://tomcat.apache.org/ 下 载 tar.gz 包 : 


# wget 
http://www.fayea.com/apache-mirror/tomcat/tomcat-8/v8.0.33/bin/apache-tomcat-8.0.33.tar.gz 


然后 解压 缩 这 个 文件 : 


#tar -xf apache-tomcat-8.0.33.tar.gz 


然后 增加 Tomcat 所 使 用 的 内 存 。 修 改 配置 文件 catalina.sh 如 下 : 


#vi /usr/local/apache-tomcat-8.0.33/bin/catalina.sh 


在 文件 catalina.sh 的 开始 位 置 增加 如 下 行 : 


JAVA_OPTS=-Xmx1024m 


修改 Tomcat 配 置 文件 serverxml， 把 监听 端口 号 从 8080 改 到 80， 并 且 支 持 UTF-8 编 码 : 


#vi /usr/local/apache-tomcat-8.0.33/conf/server.xml 


增加 配置 : 


useBodyEncodingForURI="true" URIENcoding="UTF-8" 


可 以 把 Web 应 用 打 一 个 war 包 ， 然 后 传 到 服务 器 上 的 webapps/ 子 路 径 下 ， 程 序 会 自动 解压 缩 war 包 中 的 Web 应 用 。 也 可 以 压缩 开发 环境 中 的 文件 : 


#tar -cjf price.tar.bz2 ./price 


在 正式 环境 中 下 载 压缩 好 的 文件 price.tar.bz2， 然 后 解压 缩 文件 : 


#tar -xjf price.tar.bz2 


再 启动 Tomcat: 


#startup.sh 


查看 Tomcat 是 否 已 经 启动 了 : 


#pgrep -1 java 


或 者 使 用 如 下 命令 : 


#ps -ef |grep java 


虚拟 主机 服务 器 提供 商 可 能 提供 这 样 的 服务 : 当 Tomcat 服 务 停止 的 时 候 ， 会 自动 启动 一 个 Apache 显 示 错 误 信息 。 启 动 Tomcat 之 前 ， 先 停止 Apache 服 务 : 


#httpd -k stop 


查看 Apache 服 务 是 否 已 经 停止 了 : 


#pgrep httpd 


如 果 需 要 更 好 的 性 能 ， 可 以 使 用 Resin。 处 理 静态 页 面 ，Resin 比 Ngnix 或 者 Apache 快 。 可 以 在 http://www.caucho.com/download/ 上 下 载 Resin 免 费 版 本 。 


在 bin 目 录 下 ， 用 vi 命令 新 建 一 个 名 为 startResin.sh 的 文件 : 


#vi ./startResin.sh 


在 文件 内 输入 如 下 信息 : 


export LC ALI=zh CN.GB18030 
export LANG=zh_CN.GB18030 
nohup ./httpd.sh & -Xms512M -Xmx1024M 


然后 备份 到 目录 /home/webbak/ROOT2012 下 : 


cp -r ./ROOT/ /home/webbak/ROOT2012 
启动 Resin 4。 
resin.sh start 


如 果 需 要 ， 可 以 给 网 站 买 一 个 好 记 的 域名 。 向 域名 供应 商 购买 域名 后 ， 增 加 DNS 信息 。 如 果 修 改 DNS 信 息 后 ， 要 清空 本 地 的 DNS 缓存 信息 。Windows 下 可 以 使 用 如 下 的 命令 清空 缓存 : 


>ipconfig /flushdns 


查询 一 个 域名 的 A 记录 : 


>nslookup www.lietu.com 198.153.192.1 


6.11.2 ”防止 攻击 

如 果 站 点 无 法 访问 了 ， 可 能 就 是 被 攻击 了 。 常 见 的 一 种 攻击 方式 叫做 分 布 式 拒绝 服务 攻击 ， 即 Distributed denial of service (简称 DDOS) 。 检 查 服务 器 是 否 在 DDOS 状 态 的 一 个 快速 而 有 用 的 命令 
是 : 

#netstat -anp |grep 'tcp\|ludp' | awk '{print $5}' | cut -d: -fl | sort | 


unig -ce | sort ~-n 


这 会 列 出 与 服务 器 建立 连接 最 多 的 IP。 但 是 要 记 住 ，DDOS 正 在 变 得 更 复杂 ， 它 可 能 用 更 多 的 IP 地 址 ， 每 个 IP 地 址 使 用 更 少 的 连接 ， 如 使 用 代理 IP。 如 果 是 这 样 ， 即 使 在 DDOS 下 ， 仍 然 只 有 很 少数 量 的 


连接 ， 这 就 叫做 CC 攻击 。 


另外 一 个 非常 重要 的 事情 是 看 有 多 少 正在 处 理 的 活跃 的 连接 。 通 过 命令 : 


#netstat -n | grep :80 |wc -1 


将 显示 活跃 的 连接 数 。 许 多 攻击 通常 是 开启 一 个 到 服务 器 的 连接 ， 然 后 不 发 送 任何 答复 ， 让 服务 器 等 待 到 超时 。 活 跃 连接 的 数量 会 有 很 大 的 不 同 ， 但 如 果 是 500 个 以 上 ， 就 可 能 有 问题 。 例 如 : 


#netstat -n | grep :80 | grep SYN |wc -1 


如 果 超 过 100 个 ， 就 有 SYN 攻 击 的 麻烦 。 大 量 的 SYN 请 求 会 导致 未 连接 队列 被 塞 满 ， 使 正常 的 TCP 连 接 无 法 顺利 完成 三 次 握手 ， 通 过 增 大 未 连接 队列 空间 可 以 缓解 这 种 压力 。 


Linux 用 变量 tcp_max_syn_backlog 定 义 backlog 队 列 容纳 的 最 大 半 连 接 数 。 在 Redhat As 中 ， 这 个 值 默认 是 1024。 但 这 个 值 是 远 远 不 够 的 ， 一 次 强度 不 大 的 SYN 攻 击 就 能 使 半 连 接 队列 占 满 。 可 以 通过 


以 下 命令 修改 此 变量 的 值 : 


# sysctl -w net.ipv4.tcp max syn backlog="2048" 


在 linux 下 可 以 通过 修改 /etc/sysctl.conf， 添 加 下 列 选项 达到 | 效果。 


# add by geminis for syn crack 
net .ipv4.tcp syncookies = 1 

net .ipv4.tcp max syn backlog=2048 
net .ipv4.tcp_ synack retries=1 


Linux 有 一 个 很 好 的 工具 拒绝 为 “不 怀 好 意 ” 的 IP 提 供 服务 ， 叫 做 iptables。 很 多 管理 员 害怕 使 用 iptables。 阻 塞 IP 会 阻塞 这 个 IP 访 问 任何 服务 器 资源 ， 不 仅仅 是 Web 服 务 器 ， 还 包括 FTP 和 Telnet 等 。 如 
果 直 接 编辑 iptables 的 配置 文件 ， 可 能 会 导致 宕 机 。 例 如 ， 一 个 语法 错误 ， 可 能 会 阻止 用 户 访问 SSH、FTP、HTTP 和 任何 其 他 的 服务 。 因 此 ， 不 要 直接 编辑 配置 文件 iptables-config， 最 好 从 Linux 命 令 行 进 
入 iptables 命 令 。 如 果 有 语法 错误 ， 命 令 行 接口 会 拒绝 这 个 命令 。 下 面 是 一 些 常用 的 例子 : 


阻塞 从 120.60.0.0 到 120.60.255.255 范 围 内 的 IP。 


#iptables -I INPUT -m iprange --src-range 120.60.0.0-120.60.255.255 -j DROP 


要 阻止 一 个 IP， 如 120.60.43.201， 使 用 下 面 的 命令 : 


#iptables -A INPUT -s 120.60.43.201 -j DROP 


显示 当前 的 iptables 文 件 而 不 编辑 它 ， 使 用 下 面 的 命令 : 


#iptables -L 


iptables 不 能 自动 屏蔽 恶意 |P， 只 能 手动 屏蔽 。 一 个 轻 量 级 的 脚本 DDOS deflate 能 够 自动 屏蔽 DDOS 攻 击 者 的 IP。 


通过 配置 /usr/local/ddos/ignore.ip.list， 可 以 配置 白 名 单 的 IP 地 址 。 


IP 地 址 被 封 时 间 是 预先 设 定 的 ， 默 认 600 秒 后 自动 解除 封锁 。 通 过 配置 文件 ， 脚 本 可 以 定时 周期 性 运行 (默认 是 1 分 钟 ) 。 有 IP 地 址 被 封锁 时 ， 可 以 为 指定 的 邮箱 接收 电子 邮件 警报 。 这 些 都 可 以 写 在 配 
置 文件 /usr/local/ddos/ddos.conf 中 。 安 装 DDOS deflate: 


# wget http://www.inetbase.com/scripts/ddos/install.sh 
# chmod 0700 install.sh 
# ./install.sh 


下 面 解 释 一 下 DDOS deflate 脚 本 主要 配置 文件 ddos.conf。 


##### Paths of the Script and other files 


PROGDIR="/usr/local/ddos" // 文 件 存放 目录 

PROG=" /usr/local/ddos/ddos.sh" // 主 要 功能 脚本 

IGNORE IP LIST="/usr/local/ddos/ignore.ip.1list"  ”// 白 名 单 地址 列表 
CRON="Jetc/cron.d/ddos.cron" //crond 定 时 任务 脚本 


APF="/etc/apf/apf" 
IPT="/sbin/iptables" 


##### frequency in minutes for running the script 

##### Caution: Every time this setting is changed, run the script with --cron 
非 ### 砷 option so that the new frequency takes effect 

FREQ=1 // 间 隔 多 和 久 检查 一 次 ， 默 认 1 分 钟 


##### How many connections define a bad IP? Indicate that below. 
NO_OF CONNECTIONS=150 。” // 最 大 连接 数 设置 ， 超 过 这 个 数字 的 IF 就 会 被 屏蔽 ， 默 认 即 可 


##### APF BAN=1 (Make sure your APF version is atleast 0.96) 
##### APF BAN=0 (Uses iptables for banning ips instead of APF) 
RPF BAN=0 //1: 使 用 APF，0: 使 用 iptables， 推 荐 使 用 iptables 


##### KILI=0 (Bad IPs are'nt banned, good for interactive execution 
of script) 

###### KILI=1] (Recommended setting) 

KILI=1 // 是 否 屏蔽 ITP， 默 认 即 可 


##### Rn email is sent to the following address when an IP is banned. 
井 #### Blank would suppress Sg of mails 
EMAIL TO="root" // 发 送 电 子 姥 件 报警 的 邮箱 地 址 ， 换 成 自己 使 用 的 邮箱 即 可 


##### Number of seconds the banned ip should remain in blacklist. 
BAN_PERIOD=600 // 屏 珊 IP 的 时 间 ， 根 据 情况 调整 


最 后 开启 系统 crond 服 务 即 可 。 执 行 uninstall.ddos 和 载 脚 本 : 


# wget http://www.inetbase.com/scripts/ddos/uninstall .ddos 
# chmod 0700 uninstall .ddos 
# ./uninstall.ddos 


更 好 的 方法 是 安装 CSF (Config security firewall) ， 它 可 以 在 极 大 程度 上 保护 服务 器 的 安全 。CSF 是 可 以 免费 使 用 的 ， 基 于 1ptables 的 防火 墙 ， 很 容易 集成 到 CPanel。CPanel 是 为 网 站 所 有 者 设计 的 
一 套 Web 形 式 的 控制 系统 ， 网 站 所 有 者 甚至 可 以 直接 把 它 当 作 网 站 后 台 Windows 操 作 系统 。 


银行 为 了 防止 黑客 暴力 破解 持 卡 人 的 密码 ， 采 用 连续 三 次 输入 密码 错误 ， 就 锁定 该 账户 的 保护 形式 。CSF 防 火 墙 为 了 防止 暴力 破解 密码 ， 也 会 自动 屏蔽 连续 登录 失败 的 |P。 


可 以 通过 CSF 管 理 网 络 端 口 ， 只 开放 必要 的 端口 ， 还 可 以 免疫 小 流量 的 DDOS 和 CC 攻击 。 


CentOS 下 需要 先 安装 CSF 依 赖 包 : 


#yum install perl-libwww-perl perl iptables 
#wget http://www.configserver.com/free/csf.tgz 
#tar zxf csf.tar.gz 


如 果 和 Apache 服 务 器 配合 使 用 ， 则 执行 : 


#sh ./csf/install.sh 


如 果 直 接管 理 防火 墙 ， 则 执行 : 


#sh ./csf/install.directadmin.sh 


按照 安装 程序 的 指示 装 好 程序 后 ， 可 以 运行 测试 程序 : 


#perl /etc/csf/csftest.pl 


如 果 没 问题 就 可 以 启动 防火 墙 了 。 


#csf -s 
重新 启动 防火 墙 : 
#csf -r 


刷新 规则 ， 或 者 停止 防火 墙 : 


#osf -下 


6.12 ”使 用 Rust 开 发 搜索 界面 


本 节 将 介绍 使 用 Rust 语 言 构 建 前 端 Web 应 用 。 


首先 安装 Cargo (Cargo 是 Ruse 的 构建 系统 和 包 管理 工具 


# yum install cargo 


安装 Cargo Web: 


# cargo install cargo-web 


这 个 Cargo 子 命令 旨 在 使 构建 、 开 发 和 部 署 在 Rust 中 编写 的 客户 端 Web 应 用 程序 更 加 简单 方便 。 


以 下 子 命令 建立 项 目 : 


# cargo web build 


自动 在 Web 浏 览 器 中 运行 测试 ， 命 令 如 下 : 


# cargo web test 


构建 项 目 ， 启 动 谋 入 式 Web 服 务 器 并 根据 需要 进行 重建 ， 命 令 如 下 : 


# cargo web start 


如 有 需要 ， 可 以 在 Linux 系 统 下 自动 下 载 并 安装 Emscripten。 


6.13” 本章 小 结 


站 


本 章 介绍 了 使 用 Java Spring 框架 实现 搜索 界面 ， 并 且 介 绍 了 很 多 重要 的 搜索 功能 界面 的 实现 ， 如 复杂 条 件 搜索 界面 、 用 户 输入 提示 词 和 分 类 查找 界 


Searchkit 采 用 React 构 建 。React 起 源 于 Facebook 公 司 的 内 部 项 目 。React 虚 拟 DOM 到 真实 DOM 的 泻 染 是 通过 react.render 全 局 API 实 现 的 。 


2010 年 以 前 一 般 使 用 Script.aculo.us 框 架 实现 自动 完成 功能 。 当 jQuery 开始 流行 后 ， 依 赖 Prototype 的 Script.aculo.us 框 架 不 再 流行 。jQuery 采 用 操作 DOM 树 的 方式 实现 动态 页 面 展示 。 


目前 ， 很 多 搜索 界面 前 端 采用 JavaScript 进 行 开发 ， 等 WebAssembly 技 术 逐 渐 成 型 后 ， 前 端 界 面 开 发 会 更 加 简单 。 


Pebble 是 和 PHP 模 板 Twig 类 似 的 Java 模 板 引 擎 ， 具 体 功能 的 实现 可 以 参考 Thymeleaf 或 者 Velocity。 


在 界面 设计 上 ， 要 想 办 法 节约 用 户 的 时 间 。 例 如 ， 手 机 上 的 锁定 状态 ， 需 要 用 户 额 外 输入 才能 解锁 ， 可 以 用 触感 指纹 或 者 手势 设计 来 代替。 


有 些 热 词 会 直接 跳 转 。 例 如 ， 搜 索 手 机 ， 可 直接 跳 转 到 相关 手机 的 购买 界面 ， 而 不 执行 相关 性 查询 ， 是 因为 有 个 散 列 表 对 应 查询 词 和 跳 转 的 页 面 。 


Spring 框架 的 第 一 个 版 本 是 由 Rod Johnson 撰 写 的 。 他 在 2000 年 为 伦敦 的 金融 界 提供 独立 咨询 业务 时 编写 了 Spring 框 架 最 开始 的 部 分 。2002 年 10 月 Wrox 公 司 出 版 了 他 的 《Java 企 业 应 用 设计 与 开发 专 
家 一 对 一 》 一 书 ， 发 布 了 该 框架 。 该 书 发 表 后 ， 基 于 读者 的 要 求 ， 源 代码 在 开源 使 用 协议 下 对 外 提供 。 由 此 一 批 自愿 拓展 Spring 框架 的 程序 开发 员 组 成 了 开发 团队 ， 并 于 2003 年 2 月 在 Sourceforge 上 构建 
了 一 个 项 目 。 在 Spring 框架 上 工作 了 一 年 之 后 ， 这 个 团队 在 2004 年 3 月 发 布 了 Spring 框架 第 一 个 版 本 ( 即 Spring 1.0) 。 继 这 个 版 本 之 后 ，Spring 框 架 在 Java 社 区 里 变 得 非常 流行 。 


在 Spring Boot 之 前 的 Spring Web 应 用 需要 打包 成 WAR 格 式 ， 然 后 才能 部 署 到 Tomcat 中 。Spring Boot 可 以 使 用 内 嵌 的 Tomcat， 由 main () 方法 来 启动 Spring， 接 着 启动 Tomcat， 而 不 是 由 
Tomcat 来 启动 Spring。EmbeddedServletContainerAutoConfiguration 类 会 进行 Tomcat 的 配置 ， 由 TomcatEmbeddedServletContainer 类 进行 启动 。 


第 7 章 “Elastic 栈 系统 监控 


我 们 可 以 使 用 Elastic 栈 (Elastic stack) 实现 对 应 用 程序 日 志 的 传输 、 处 理 、 管 理 和 搜索 。Elastic 栈 涉及 以 下 几 个 组 件 。 


“ Beats: 用 于 轻 量 级 日 志 采 集 ， 支 持 文件 采集 、 系 统 数据 采集 和 特定 中 间 件 数据 采集 等 。 


“Logstash: 用 于 日 志 结 构 化 和 标签 化 ， 支 持 用 DSL 方 式 将 数据 进行 结构 化 。 
“ Elasticsearch: 用 于 提供 日 志 的 相关 索引 ， 使 得 日 志 能 够 有 效 地 被 检索 。 

“ Kibana: 提供 用 于 日 志 检索 和 特定 度量 展示 的 面板 。 

' X-Pack: 用 于 监控 与 预警 相关 组 件 ， 可 以 集成 到 Elasticsearch 中 。 


* Curator: 用 于 管理 Elasticseartch 集 群 索引 的 相关 数据 ， 对 索引 进行 分 析 。 


除了 Elasticsearch， 也 可 以 使 用 Graylog 管 理 和 搜索 日 志 。 本 章 首先 介绍 使 用 Elastic 栈 管理 日 志 ， 然 后 介绍 Graylog 日 志 管 理 平 台 。 


7.1 管理 Elasticsearch 集 群 


启动 一 个 Elasticsearch 实 例 的 时 候 ， 就 是 启动 一 个 节点 。 连 接 在 一 起 的 节点 集合 称 为 一 个 集群 。 如 果 正 在 运行 Elasticsearch 的 单个 节点 ， 那 么 就 是 一 个 节点 组 成 的 集群 。 


默认 情况 下 ， 集 群 中 的 每 个 节点 都 可 以 处 理 HTTP 和 Transport 流 量 。Transport 层 专用 于 节点 和 Java TransportClient 之 间 的 通信 ， 而 HTTP 层 仅 由 外 部 REST 客 户 端 使 用 。 


每 个 节点 都 知道 集群 中 的 所 有 其 他 节点 ， 并 能 够 将 客户 端 请 求 转发 到 适当 的 节点 。 除 此 之 外 ， 每 个 节点 都 有 一 个 或 多 个 目的 ， 见 以 下 说 明 。 


“ 符合 主 节点 (Master) 资格 的 节点 : 一 个 节点 的 node.master 设 置 为 true (默认 值 ) ， 这 使 得 它 有 资格 被 选 为 控制 集群 的 主 节点 。 
“ 数据 节点 : node.data 设 置 为 true (默认 值 ) 的 节点 。 数 据 节 点 保存 数据 并 执行 数据 相关 操作 ， 如 CRUD、 搜 索 和 聚合 。 


“ 摄取 节点 : node.ingest 设 置 为 tue (默认 值 ) 的 节点 。 摄 取 节 点 能 够 将 摄取 流水 线 应 用 于 文档 ， 以 便 在 索引 之 前 转换 和 丰富 文档 。 因 为 摄取 负载 沉重 ， 所 以 建议 使 用 专门 的 摄取 节点 并 将 主 节点 和 数据 


节点 标记 为 node.ingest: 人 色 se 是 有 意义 的 。 


默认 情况 下 ，Elasticsearch 集 群 中 的 每 个 节点 都 有 成 为 主 节点 的 资格 ， 也 都 存储 数据 ， 还 可 以 提供 查询 服务 。 这 对 于 小 型 集群 来 说 非常 方便 ， 但 是 随 着 集群 的 发 展 ， 考 虑 将 专用 主 节 点 与 专用 数据 节点 
分 开 是 很 重要 的 。 


reroute 命 令 人 允许 显 式 地 执行 包含 特定 命令 的 集群 重 路 由 分 配 命令 。 例 如 ， 分 片 可 以 从 一 个 节点 移动 到 另 一 个 节点 ， 可 以 取消 分 配 ， 或 者 可 以 在 特定 节点 上 显 式 地 分 配 未 分 配 的 分 片 。 


以 下 是 一 个 简单 的 reroute API 调 用 的 简短 示例 。 


POST /_cluster/reroute 
{ 


"commands" : [ 
{ 
"move" : { 
"index™" : "test", "shard" : 0, 
"from node™" : "nodel", "to node" : "node2" // 把 分 片 从 nodel 转 移 到 node2 


} 


如 分 片 丢失 ， 也 可 以 尝试 使 用 reroute 命 令 找 回 丢 失 的 分 片 。 


从 Elasticsearch 5.5 开 始 ，reroute 命 令 已 分 成 两 个 不 同 的 命令 ， 即 allocate_replica 和 allocate empty_primary。 


allocate_stale_primary 命 令 给 主 分 片 分 配 一 个 包含 陈旧 副本 的 节点 ; allocate_replica 命 令 给 未 分 配 的 副本 分 片 分 配 一 个 节点 ; allocate empty_primary 命 令 给 一 个 节点 分 配 一 个 空 的 主 分 片 。 


7.1.1 写 入 权限 控制 


如 果 能 让 Elasticsearch 提 供 只 读 而 不 可 以 写 入 的 端口 号 ， 就 能 够 实现 权限 控制 。 有 一 个 方法 就 是 把 Nginx 放 在 Elasticsearch 前 端 。Nginx 是 一 款 开 源 的 高 性 能 HTTP 服 务 器 。 


只 人 允许 GET 请 求 的 一 个 配置 例子 如 下 : 


worker processes 1; // 工 作 进程 数目 
pid nginx.pid; // 进 程 标识 符 存 放 路 径 
events { i 
worker connections 1024; // 工 作 进程 的 最 大 连接 数量 
} 
http { 
server { 
listen 8080; // 监 听 端 口 
server name search.example.com; // 访 问 域名 
error log elasticsearch-errors.1og; // 错 误 日 志 存 放 路 径 
access_1og elasticsearch.1og7 // 访 问 日 志 存 放 路 径 


location / { 


if ($request method !~ "GET") { // 拒 绝 非 GET 请 求 
return 403; 
break; 
} 
proxy pass http://localhost:9200; // 代 理 转 发 
Proxy redirect off; // 不 重 定向 


// 将 代理 服务 器 收 到 的 用 户 信息 传 到 真实 服务 器 上 

Proxy set header X-Real-IP S$remote addr; 

Proxy_ set header X-Forwarded-For $proxy add x forwarded for; 
proxy set header Host $http host; 和 


使 用 这 个 配置 : 


$ nginx -c path/to/this/file 


然后 测试 Nginx: 


$ curl -i -X GET http://localhost:8080/_search -d '{"query":{"match_ 
[和 和 
HTTP/1.1 200 OK 


显示 GET 请 求 可 以 正常 访问 。 


$ curl -i E -X POST http://localhost:8080/test/test/1 -d '{"foo":"bar"}' 
HTTP/1.1 403 Forbidden 


显示 POST 请 求 无 法 访问 。 


$ curl -i -X DELETE http://localhost:8080/test/ 
HTTP/1.1 403 Forbidden 


显示 DELETE 请 求 也 无 法 访问 。 


安装 X-Pack 揪 件 后 ， 所 有 对 Elasticsearch 的 访问 都 增加 了 安全 机 制 ， 即 需要 提供 用 户 名 和 密码 ， 默 认 分 别 为 elastic 和 changeme。 使 用 sense 揪 件 访 问 的 时 候 可 以 输入 用 户 名 和 密码 ， 如 果 是 使 用 CURL 
等 方式 访问 ， 则 需要 在 HTTP 的 header 中 增加 Authentication 参 数 。 


安全 的 客户 端 可 以 参考 https://github.com/elastic/found-shield-example。 


7.1.2 ”使 用 X-Pack 


网 


X-Pack 插 件 包含 安 人 全、 警报、 监视、 报告 和 图 形 功能 。 首 先 来 安装 X-Pack 插 件 : 


>bin/elasticsearch-plugin install x-pack 


然后 列 出 所 有 加 载 的 插件 : 


>bin/elasticsearch-plugin list 


可 以 看 到 ，X-Pack 揪 件 已 经 安装 。 如 果 不 需 要 该 插件 ， 也 可 以 删除 ， 命 令 如 下 : 


>bin/elasticsearch-plugin remove x-pack 


为 了 和 Elasticstarch 通 信 ， 在 使 用 curl 命 令 的 时 候 需 要 加 入 认证 参数 -user username: password， 使 用 该 参数 访问 索引 : 


#curl -user elastic:changeme -XPUT 'localhost:9200/idx' 


7.1.3 快照 


为 了 保证 数据 的 完整 性 ， 可 以 使 用 快照 功能 把 历史 数据 存 入 Hadoop 集 群 的 分 布 式 文件 系统 (HDFS) 上 。HDFS 存 储 库 插件 增加 了 使 用 HDFS 作 为 Shapshot/Restore 存 储 库 的 支持 。 


HDFS 揪 件 可 以 使 用 插件 管理 器 安装 。 命 令 如 下 : 


# bin/elasticsearch-plugin install repository-hdfs 


HDFS 揪 件 必须 安装 在 集群 中 的 每 个 节点 上 ， 每 个 节点 必须 在 安装 后 重新 启动 。 


HDFS 揪 件 也 可 以 从 以 下 地 址 下 载 安装 : 


https://artifacts.elastic.co/downloads/elasticsearch-plugins/repository-hdfs/repository-hdfs-5.3.0.zip 


HDFS 快 照 /恢复 插件 是 针对 最 新 的 Apache Hadoop 2.x (目前 版 本 为 2.7.1) 构建 的 。 如 果 读 者 正在 使 用 的 发 行 版 与 Apache Hadoop 不 兼容 ， 可 以 考虑 使 用 自己 的 插件 文件 替换 插件 文件 夹 中 的 
Hadoop 库 。 


安装 后 ， 通 过 REST API 定 义 HDFS 仓 库 的 配置 : 


PUT /_snapshot/my_backup 
{ 


"type": "hdfs", 
"settings": { 
"path": "/path/on/hadoop", //Hadoop 集 群 上 的 地 址 
"uri":; "hdfs://hadoop_cluster domain: [port]"， // 访 问 Hadoop 的 网 址 
"conf location":"/hadoop/hdfs-site.xml, /hadoop/core-site.xml", // 配 置 文件 路 径 
"user™: "hadoop"™" // 访 问 用 户 
} 
i 
为 索引 创建 快照 : 


PUT /_snapshot/my_backup/snapshot 1?wait for completion=true 


可 以 使 用 以 下 命令 恢复 快照 : 


POST /_snapshot/my backup/snapshot 1/_restore 


Lucene 索 引 可 以 增 量 备份 ， 以 便 减 少 硬盘 空间 的 占用 。 


7.2 Logstash 数 据 处 理工 具 


Logstash 是 一 个 收集 、 处 理 和 转发 应 用 程序 事件 和 日 志 消 息 的 工具 软件 ， 可 以 用 它 来 统一 对 应 用 程序 日 志 进 行 收集 管理 ， 提 供 Web 接 口 用 于 查询 和 统计 。 


通过 可 配置 的 输入 插件 来 完成 数据 收集 ， 包 括 原始 套 接 字 / 数 据 包 通 信 、 文 件 尾部 追踪 和 几 个 消息 总 线 客户 端 。 一 旦 输入 插件 收集 到 数据 后 ， 就 可 以 通过 多 个 过 滤器 进行 处 理 。 


最 后 ，Logstash 把 处 理 过 的 事件 传递 给 输出 插件 ， 这 些 插件 可 以 将 事件 转发 到 各 种 外 部 程序 中 ， 如 Elasticsearch、 本 地 文件 和 多 个 消息 总 线 实现 。 


7.2.1 使 用 Logstash 


可 以 用 Yum 安 装 Logstash。 首 先 在 /etc/yum.repos.d/ 路 径 下 写 一 个 repo 文 件 指定 软件 包 所 在 的 网 址 。repo 文 件 是 Yum 源 (软件 仓库 ) 的 配置 文件 。logstash.repo 文 件 内 容 如 下 : 


# Vi /etc/yum.repos.d/logstash.repo 


[logstash-5.x] # 软 件 源 的 名 称 

name=Elastic repository for 5.x packages # 为 了 方便 阅读 配置 文件 用 的 名 称 
baseurl=https://artifacts.elastic.co/packages/5.x/yum // 源 的 镜像 服务 器 地 址 
gpgcheck=1 # 这 个 repo 中 下 载 的 rpm 将 进行 gpg 的 校 验 
gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch # 定 义 用 于 校 验 的 gpg 密 钥 
enabled=1 # 这 个 repo 中 定义 的 源 是 启用 的 ，0 为 禁用 

autorefresh=1 # 自 动 更 新 

type=rpm-md # 指 定 存 储 库 的 类 型 


然后 可 以 用 Yum 命 令 安装 Logstash: 


# sudo yum install logstash 


接 下 来 ， 通 过 最 简单 的 方法 测试 Logstash。 


Logstash 管 道 有 两 个 必需 元 素 ， 即 输入 和 输出 ， 以 及 一 个 可 选 元 素 过 滤器 。 输 入 插件 消耗 来 自 源 的 数据 ， 过 滤器 插件 会 按照 指定 的 方式 修改 数据 ， 输 出 插件 将 数据 写 入 目的 地 。 


然后 到 安装 目录 下 运行 最 基本 的 Logstash 管 道 : 


# cd /usr/share/logstash/bin 
# ./logstash -e 'input { stdin { } } output { stdout {} }' 


在 控制 台 输 入 hello world， 可 以 看 到 类 似 如 下 的 输出 : 


2017-09-21T08:44:57.2802 iZetooc2z5ucu32 hello world 


可 以 在 配置 文件 中 指定 输入 和 输出 。 一 个 简单 的 例子 如 下 : 


# vi logstash-simple.conf 
input { stdin { } } 
output { 
stdout { codec => rubydebug } // 采 用 Ruby 库 来 解析 日 志 
} 


使 用 这 个 配置 文件 启动 Logstash: 


# ./logstash -f logstash-simple.conf 


这 里 用 到 了 Codec。 根 据 输入 test， 产 生 的 输出 如 下 : 


"@timestamp" => 2017-08-21T10:18:20.7492, // 时 间 蕉 
"@version" => "1", // 版 本 

"host" => "iZetooc2z5ucu32", // 主 机 名 
"message" => "test" // 消 息 


数据 可 以 输出 到 多 个 目的 地 ， 同 时 输出 到 Elasticsearch 和 stdout 的 配置 如 下 : 


input { stdin { } } 

output { 
elasticsearch { hosts => ["localhost:9200"] } 
stdout { codec => rubydebug } 


Linux 系 统 使 用 Logstash， 最 简单 的 方法 是 使 用 传统 的 日 志 记 录 方 法 Syslog。 


Syslog 是 计算 机 日 志 记 录 的 原始 标准 之 一 ， 是 由 埃 里 克 - 阿 尔 曼 (Eric Allman) 设计 的 ， 是 Sendmail 的 一 部 分 ， 并 且 已 经 成 长 为 支持 各 种 日 志 记 录 的 平台 和 应 


志 的 默认 机 制 ， 运 行 在 Linux 上 的 应 用 程序 及 打印 机 和 网 络 设备 ， 如 路 由 器 、 交 换 机 和 防火 墙 等 大 多 使 用 Syslog。 


程序 。Syslog 已 成 为 Linux 系 统 上 记录 日 


Syslog 配 置 文 件 位 于 /etc/rsyslog.conf 下 。 默 认 情 况 下 ，RedHat/Fedora 的 /etc/rsyslog.conf 文 件 被 配置 为 将 大 多 数 消息 放 入 文件 /var/log/messages 下 。Syslog 产 生 的 每 个 消息 的 大 致 结构 如 下 : 


Aug 28 13:50:50 iZetooc2z5ucu3Z systemd: Starting Session 13738 of user root. 


消息 的 组 成 部 分 包括 : 时 间 戳 、 生 成 消息 的 主机 、 生 成 消息 的 进程 和 消息 的 内 容 。 


可 以 配置 Logstash 服 务 器 接收 Syslog 消 息 。Logstash 配 置 文 件 位 于 /etc/logstash/conf.d 目 录 下 。 编 辑 /etc/logstash/conf.d/syslog.conf 文 件 : 


input{ 
syslog{ 
type => "system-syslog" // 指 定 输入 类 型 
Port => 514 // 系 统 日 志 服务 监听 514 端 口 


} 
output{ 


stdout{ 
Codec => rubydebug 


然后 用 指定 配置 文件 启动 Logstash: 


# ./logstash -f /etc/logstash/conf.d/syslog.conf 


7.2.2 插件 


可 以 通过 程序 bin/logstash-plugin 来 安装 、 删 除 和 升级 插件 。 例 如 ， 列 出 当前 可 用 的 插件 : 


# ./logstash-plugin list 


也 可 以 安装 、 更 新 或 者 删除 插件 。 例 如 ， 安 装 logstash-output-kafka 揪 件 : 


# ./logstash-plugin install logstash-output-kafka 


更 新 logstash-output-kafka 插 件 : 


# ./logstash-plugin update logstash-output-kafka 


删除 logstash-output-kafka 揪 件 : 


# ./logstash-plugin remove logstash-output-kafka 


7.2.3 ”数据 库 输 入 插件 


MongoDB 输 入 插件 的 配置 文件 如 下 : 


input { 
mongodb { 
uri => 'mongodb://10.0.0.30/my-logs?ssl=true' // 连 接 到 指定 的 数据 库 
path => '/opt/logstash-mongodb/logstash sqlite.db' 
collection => 'events_' // 取 得 指定 的 文档 集合 
batch size => 5000 一 // 取 得 文档 的 数量 


i 


这 里 的 数据 库 文件 /opt/logstash-mongodb/logstash_sqlite.db' 是 自动 创建 出 来 的 。 


应 该 为 /opt/logstash-mongodb 上 的 Logstash 服 务 器 提供 权限 ， 以 便 它 能 够 创建 数据 库 : 


# chown -R logstash:logstash /opt/logstash-mongodb 


可 以 使 用 Logstash 同 步 MySQL 数 据 到 Elasticsearch 中 ， 不 捕获 表 上 的 DELETE 操 作 ， 它 们 只 能 捕获 INSERT 和 UPDATE 操 作 。 


可 以 通过 JDBC 从 MySQL 读 取 数 据 。 例 如 : 


input { 
jdbc { 
jdbc driver library => "/path/to/mysql-connector-java-5.1.33-bin.jar" // 驱 动 程序 
jdbc driver class => "com.mysql.jdbc.Driver"  // 驱 动 类 
jdbc_connection string => "jdbc:mysql://host:port/database" // 连 接 字符 串 
jdbc user => "user" // 用 广 


户 
jdbc_password => "password" // 密 码 


statement => "SELECT http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/O0EBPS/Text/..." // 查 询 语句 


jdbc paging enabled => "true" 页 
jdbc page size => "50000" // 分 页 大 小 
: 
} 
filter { 


[some filters here] 


output { // 两 个 输出 目标 
stdout { 
codec => rubydebug 
} 
elasticsearch http { 
host => "host" 
index => "myindex" 
. 
} 


7.2.4 开发 插件 


我 们 采用 Ruby 开 发 插件 ， 因 此 需要 安装 Ruby 管 理工 具 Bundler。Bundler 通 过 跟踪 和 安装 所 需 的 gem (Ruby 模 块 ) 版 本 ， 为 Ruby 项 目 提供 一 致 的 环境 。 


首先 安装 gem : 


# Yum install gem 


然后 安装 Bundler: 


# gem install bundler 


测试 Rspec 框 架 : 


# bundle exec rspec 


安装 测试 /规范 所 需 的 Logstash 包 在 Gemfile 中 由 类 似 以 下 的 代码 指定 : 


# gem "logstash", :github => "elasticsearch/logstash", :branch => "1.5" 


7.3 Filebeat 文 件 收集 器 


Filebeat (下 载 地 址 是 https://github.com/elastic/beats/tree/master/filebeat) 是 一 个 开源 文件 收集 器 ， 可 以 使 用 它 获取 日 志文 件 并 将 其 提供 给 Logstash。 目 前 ，Filebeat 可 以 给 Elasticsearch 或 者 
Logstash 发 送 数据 。 


在 Linux 下 ， 可 以 使 用 RPM 安装 Filebeat。 命 令 如 下 : 


# curl -L -0 https://artifacts.elastic.co/downloads/beats/filebeat/ 
filebeat-5.5.2-x86_64.rpm 
# rpm -vi filebeat-5.5.2-x86 64.rpm 


在 配置 文件 /etc/filebeat/filebeat.yml 中 指定 了 监测 的 日 志 路 径 和 输出 的 目标 。 如 果 要 输出 到 Logstash 上 ， 可 以 修改 /etc/filebeat/filebeat.yml 的 相关 内 容 如 下 : 


output: 
logstash: 
hosts: ["localhost:5044"] 


在 Logstash 的 配置 文件 logstash.conf 中 指定 从 端口 (5044) 监听 来 自 Filebeat 的 数据 。 命 令 如 下 : 


input { 

beats { 

port => ‘5044’ 
} 

} 


测试 启动 Filebeat: 


# /usr/share/filebeat/bin/filebeat -e -c /etc/filebeat/filebeat.yml -d "publish" 


上 默认 的 Elasticsearch 需 要 的 索引 模板 文件 在 安装 Filebeat 的 时 候 已 经 提供 ， 路 径 为 /etc/filebeat/filebeat.template.json， 可 以 使 用 如 下 命令 装载 该 模板 : 


$ curl -XPUT 
'http://localhost:9200/_ template/filebeat?pretty' -de@/etc/filebeat/filebeat.template.json 


为 了 收集 Tomcat 日 志 ， 可 以 修改 配置 文件 /etc/filebeat/filebeat.yml: 


filebeat .prospectors: 
— input type: log 


paths: 
- /install/tomcat/logs/catalina.out 


设置 Filebeat 服 务 ， 让 其 在 服务 器 重新 启动 时 自动 启动 ， 命 令 如 下 : 


# Systemct1 enable filebeat 
# Systemct1 start filebeat 


可 以 使 用 Elasticsearch 的 TTL (Time-to-Live) 功能 定期 删除 过 期 的 日 志 信 息 。 


为 了 让 TTL 工 作 ， 首 先 必 须 在 映射 中 启用 TTL (默认 情况 下 是 禁用 的 ) ， 然 后 在 索引 文档 时 设置 TTL 值 。 示 例如 下 : 


# curl -XPUT 'mybox:9200/blog/user/_mapping?pretty' -d ' 


" ttl"s 1"enabled": trus} 


# curl -XPUT 'mybox:9200/blog/user/dilbert' -d '{ "name" : "Dilbert Brown"，" ttl": "3m"}' 


# curl -XGET 'mybox:9200/blog/user/dilbert?pretty' 


7.5 Kibana 可 视 化 平台 


Kibana 是 一 个 用 于 Elasticearsh 的 开源 分 析 与 可 视 化 平台 ， 下 载 网 址 为 https://github.comyelastic/kibana。 本 节 将 介绍 如 何 安装 和 使 用 Kibana。 


首先 导入 Elastic 栈 的 PGP Key: 


# rpm --import https://artifacts.elastic.co/GPG-KEY-elasticsearch 


然后 用 Micro 创 建新 的 repo 文 件 : 


# micro /etc/yum.repos.d/kibana.repo 


repo 文 件 内 容 如 下 : 


[kibana-5.x] 

name=Kibana repository for 5.x packages 
baseurl=https://artifacts.elastic.co/packages/5.x/yum 
gpgcheck=1 
gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch 
enabled=1 

autorefresh=1 

type=rpm-md 


和 Logstash 一 样 ， 可 以 用 Yum 安 装 Kibana， 命 令 如 下 : 


# yum install kibana 


然后 启动 Kibana: 


# Systemct1 start kibana 


可 以 用 字符 浏览 器 Links 在 本 机 查看 启动 状态 : 


# links http://localhost:5601/status 


为 了 能 够 远程 访问 Kibana， 修 改 Kibana.yml 文 件 如 下 : 


# micro /etc/kibana/kibana.yml 


然后 修改 IP 地 址 : 


server .host: "0.0.0.0" 


重新 启动 Kibana 服 务 ， 让 配置 生效 : 


# Systemct1 restart kibana 


这 样 就 可 以 通过 远程 访问 Kibana 服 务 了 。 


在 配置 文件 Kibana.yml 中 增加 Kibana 查 询 的 Elasticsearch 地 址 如 下 : 


elasticsearch.url: http://localhost:9200 


在 开始 使 用 Kibana 之 前 ， 可 以 先 定义 一 个 index pattern 用 来 匹配 一 个 或 多 个 索引 ， 告 诉 Kibana 探 索 哪个 ElasticSearch 索 引 。 


7.6_Flume 日 志 收 集 系统 


Apache Flume (http://flume.apache.org/) 是 一 种 分 布 式 、 可 靠 和 可 用 的 服务 ， 用 于 高 效 收集 、 聚 合 和 移动 大 量 日 志 数据 。 它 具有 基于 流 数 据 流 的 简单 灵活 的 架构 。 


Flume 事 件 被 定义 为 具有 字 节 有 效 载荷 和 可 选 的 一 组 字符 串 


ElasticSearchSink 将 Flume 采 集 的 数据 传输 到 Elasticsearch 中 。 


下 载 Flume 安 装 包 : 


属性 的 数据 流 的 单元 。Flume 代 理 是 一 个 JVM 进 程 ， 它 承载 事件 从 外 部 源 (source) 传递 到 下 一 个 目标 (sink) 的 组 件 。 可 以 使 


# wget http://mirror.bit.edu. 
1.8.0-bin.tar.gz 


cn/apache/flume/1.8.0/apache-flume-— 


然后 解压 缩 : 


# tar -zxvf apache-flume-1.8. 


0-bin.tar.gz 


使 用 位 于 Flume 安 装 目 录 bin 中 的 名 为 flume-ng 的 shell 脚 本 启动 代理 ， 需 要 在 命令 行 中 指定 代理 名 称 、confi 


g 目 录 和 配置 文件 : 


$ bin/flume-ng agent -n $agent name -c conf -f conf/flume-conf.properties. 


template 


默认 情况 下 ，Flume 将 一 行 视 为 一 个 事件 。 例 如 ， 通 过 tail 命 令 监控 Tomcat 日 志文 件 ， 配 置 文件 内 容 如 下 : 


agent .Sources .SrCcLog.type = exec 


agent .Sources .SrcLog.command 
catalina.out 
agent .sources.SrcLog.restart 


= tail -F /home/tomcat/webapps/1ogs/ 


= tr 


agent .sources.SrcLog.restartThrottle = 1000 
agent .sources.SrcLog.1logStdErr = true 
agent .Sources.SrcLog.batchSize = 50 


Spooling Directory Source 监 视 指定 的 文件 夹 下 有 没有 写 入 新 的 文件 ， 如 果 有 的 话 ， 就 会 把 该 文件 内 容 传 递 给 


Source 提 供 了 一 些 参 数 可 以 将 文件 名 


ElasticSearchSink 配 置 如 下 : 


和 文件 全 路 径 名 添加 到 事件 的 header 中 。 


标 组 ， 然 后 将 该 文件 名 后 缀 标示 为 .complete， 表 示 已 处 理 。Spooling Directory 


agent .sinks.elasticSearchSink.type 


= org.apache.flume.sink. 


elasticsearch.ElasticSearchSink 


agent .sinks.elasticSearchSink.channel = fileChannel 

agent .sinks.elasticSearchSink.hostNames=localhost:9300 

agent .sinks.elasticSearchSink.indexName=platform 

agent .sinks.elasticSearchSink.indexType=platformtype 

agent .sinks.elasticSearchSink.ttl=1m 

agent .sinks.elasticSearchSink.batchSize=1000 

agent .sinks.elasticSearchSink.serializer= 
org.apache.flume.sink.elasticsearch.ElasticSearchLogStashEventSerializer 


7.7 ”Kafka 分布 式 流 平台 


Apache Kafka 最 初 是 一 个 用 于 日 志 处 理 的 分 布 式 消息 队列 ， 同 时 支持 离线 和 在 线 日 志 处 理 。Kafka 在 消息 保存 时 能 根据 主题 对 消息 进行 归 类 。 


通过 在 Kafka 连 接 器 ， 在 Kafka 和 另 一 个 系统 之 间 复 制 数据 ， 


库 ) 导入 数据 。Sink 连 接 器 导出 数据 


(例如 将 Kafka 主 题 的 内 容 导出 到 Elasticsearch 或 者 HDFS 文 件 系统 ) 。 


Kafka 后 来 发 展 成 一 个 分 布 式 流 平台 。 流 平台 有 3 个 关键 功能 : 


“ 允许 发 布 和 订阅 记录 流 ， 类 似 于 消息 队列 或 企业 消息 系统 。 


“ 多 许 以 容错 方式 存储 记录 流 。 


“ 可 以 处 理 记录 流 。 


一 个 典型 的 Kafka 集 群 中 包含 若 ] 


及 一 个 Zookeeper 集 群 。Kafka 通 过 Zookeeper 管 理 集群 配置 ， 选 举 leader， 在 消费 者 集群 发 生变 化 时 进行 重新 平衡 。 生 产 者 使 用 push 模 式 将 消息 发 布 给 代理 ， 消 费 者 使 有 


息 。 


F 生 产 者 (可 以 是 Web 前 端 产生 的 网 页 浏览 记录 或 者 是 服务 器 日 志 等 ) 、 若 1 


户 可 以 为 要 从 中 提取 数据 的 系统 实例 化 Kafka 连 接 器 ， 也 可 以 将 数据 推送 到 Kafka 连 接 器 上 。 源 连接 器 将 数据 从 另 一 个 系统 (如 关系 数据 


如 果 日 志 写 入 Elasticsearch 是 系统 瓶 英 ， 那 么 可 以 考虑 使 用 Logstash 从 Kafka 中 获取 数据 并 将 其 推送 到 Elasti 


FF 代理 (Kafka 支 持 水 平 扩展 ， 一 般 代理 数量 越 多 ， 集 群 知 


二 率 越 高 ) 、 若 干 消费 者 集群 ， 以 


csearch 上 。Logstash 配 置 文件 内 容 如 下 : 


pull 模 式 通过 代理 订阅 并 消费 消 


input { 
kafka { 


bootstrap servers => "localhost:9092"// Bootstrap 服 务 器 与 Kafka 代 理 相 同 


topics => ["beats"] 


output { 
elasticsearch { 


// 主 题 为 beats 


hosts => ["localhost:9200"] 


index => "elasticse" 
了 
} 


可 根据 代理 配置 定期 删除 过 期 数据 。 例 如 : 


log.cleanup.policy=delete 


// 启 用 删除 策略 ， 也 可 以 使 用 压缩 策略 


如 直接 删除 的 话 ， 删 除 后 的 消息 不 可 恢复 。 可 按时 间 清 理 ， 例 如 : 


1og.retention.hours=16 


// 超 过 指定 时 间 则 清理 


或 者 按 存储 容量 来 清理 : 


log.retention.bytes=1073741824 // 超 过 指定 容量 后 ， 删 除 旧 的 消息 


7.8 Graylog 日 志 管理 平台 


Graylog (https://www.graylog.org/) 是 一 个 开源 日 志 管理 平台 ， 使 用 Elasticsearch 存 储 日 志 消 息 ，MongoDB 存 储 元 信息 和 配置 数据 。 


Graylog Collector Sidecar (https://github.com/Graylog2/collector-sidecar) 是 第 三 方 日 志 收集 器 (如 NXLog) 的 主管 流程 。Sidecar 程 序 能 够 从 Graylog 服 务 器 上 获取 配置 ， 并 将 它们 转换 为 各 种 
日 志 收集 器 的 有 效 配 置 文件 。 可 以 将 它 当 作对 于 日 志 收集 器 的 集中 式 配置 管理 系统 。 


为 了 在 Linux 下 安装 Graylog 服 务 器 ， 首 先 需 要 安装 MongoDB 和 Elasticsearch。 下 载 MongoDB: 


curl -0 https://fastdl .mongodb.org/linux/mongodb-linux-x86 64-3.4.4.tgz 


解压 缩 : 


# tar -zxvf mongodb-linux-x86 64-3.4.4.tgz 


在 首次 启动 MongoDB 之 前 ， 需 要 创建 mongod 进 程 写 入 数据 的 目录 。 默 认 情况 下 ，mongod 会 将 数据 写 入 /data/db 目 录 。 使 用 以 下 命令 创建 该 目录 : 


# mkdir -p /data/db 


运行 可 执行 文件 mongod: 


<path to binary>/mongod 


创建 服务 : 


# mkdir http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/OEBPS/Text/../1l0g/ 
# ./mongod --fork --logpath http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/OEBPS/Text/../1l0g/mongod.1og 


Graylog 2.3 支 持 Elasticsearch 5， 所 以 我 们 安装 Elasticsearch 5.6 版 本 。 


首先 导入 用 来 验证 RPM 包 的 RPM GPG 公 钥 : 


# rpm --import https://packages.elastic.co/GPG-KEY-elasticsearch 


然后 添加 Elasticsearch 仓 库 : 


# vi /etc/yum.repos.d/elasticsearch.repo 


[elasticsearch-5.6] 

name=Elasticsearch repository for 5.6.x packages 
baseurl=http://packages.elastic.co/elasticsearch/5.6/centos 
gpgcheck=1 
gpgkey=http://packages.elastic.co/GPG-KEY-elasticsearch 
enabled=1 


使 用 Yum 命 令 安装 Elasticsearch 5.6 版 本 : 


# yum -y install elasticsearch 


配置 Elasticsearch 在 系统 启动 的 过 程 中 启动 : 


# Systemct1 daemon-reload 
# systemctl enable elasticsearch.service 


唯一 重要 的 是 将 集群 名 称 设置 为 graylog， 这 是 由 Graylog 使 用 的 。 现 在 编辑 Elasticsearch 的 配置 文件 如 下 : 


# vi /etc/elasticsearch/elasticsearch.yml 
cluster.name: graylog 


还 需要 禁用 动态 脚本 以 避免 远程 执行 ， 可 以 通过 在 上 述 文件 未 尾 添加 以 下 命令 行 来 完成 。 


script.disable dynamic: true 


一 旦 完成 ， 就 可 以 重新 启动 Elasticsearch 服 务 以 加 载 修改 的 配置 。 命 令 如 下 : 


# Systemct1 restart elasticsearch.service 


等 待 至 少 一 分 钟 让 Elasticsearch 完 全 重新 启动 ， 否 则 测试 将 失败 。Elastisearch 现 在 应 该 监听 9200 端 口 处 理 HTTP 请 求 ， 可 以 使 用 CURL 命 令 来 获取 响应 ， 确 保 它 返 回 的 集群 名 称 为 graylog2。 


# curl -X GET http://localhost:9200 


"status" : 200, 


"name" : "Silver Fox"™, 
"cluster name" : "graylog", // 集 群 名 称 
"version"” ; { 


"number" ; "5.6.2", 


"build hash" : "e43676b1385b8125d647f593f7202acbd816e8ec"， 
"build timestamp" : "2015-09-14T09:49:532", 
"build_snapshot" 


: false, 
"lucene version" : "4.10.4" 
] 7 

"tagline" : "You Know, for Search" 

} 

使 用 以 下 命令 检查 Elasticsearch 集 群 的 运行 状况 ， 必 须 让 集群 的 状态 是 green ， 以 使 Graylog 正 常 工作 。 
# curl -XGET 'http://localhost:9200/_cluster/health?pretty=true' 
{ 

"cluster name" : "graylog", 

"status" : "green", // 集 群 健康 状况 

"timed out" : false, 

"number of nodes" : 1, 


"number of data nodes" : 
"active primary shards" : 0, 
"active shards" : 0, 
"relocating shards" : 
"initializing shards" 
"unassigned shards" : 0, 
"gelayed unassigned shards" : 0, 
"number of pending tasks" : 0, 
"number of in flight fetch" : 0 


来 安装 Graylog 2。Graylog-server 接 收 并 处 理 日 志 消息 ， 并 为 来 自 graylog-web-interface 的 请 求 产生 REST APl。 从 graylog.org 可 以 下 载 最 新 版 本 的 Graylog。 
如 下 命令 安装 Graylog 2 存储 库 。 


#rpm -Uvh 


https://packages.graylog2.org/repo/packages/graylog-2.3-repository_ 
latest .rpm 


安装 最 新 的 Graylog 服 务 器 : 


# yum -y install graylog-server 


编辑 server.conf 文 件 : 


# Vi /etc/graylog/server/server.conf 


在 上 述 文件 中 配置 以 下 变量 


文 里 。 


首先 设置 一 个 秘 钥 来 保护 


户 密码 ， 可 以 使 


以 下 命令 生成 一 个 秘 钥 ， 至 少 使 


64 个 字符 。 
# pwgen -N 1 -s 96 


5uxJaeL4vgP9uKO1VFdbS5hpAXMXLGOKDVRgARm1lI7oxKWObH9tE1SSKTzxmj4PUG1HIPOK 
OMMwj ICYZubUGc9we5tY1FJLB 


如 果 还 没有 安装 pwgen， 可 以 使 


以 下 命令 安装 pwgen。 


# yum -y install pwgen 


然后 放置 秘 钥 : 

password secret = 5uxJaeL4vgP9uKO1VFdbS5hpAXMXLGOKDvRgARml1I7oxKWObH9 

tEl1SSKTzxmj 4PUG1HIPOkoMMw]jICYZubUGc9we5tY1F]JLB 

接 下 来 为 root 用 户 设置 散 列 密码 (不 要 与 系统 用 户 混淆 ，Graylog 的 root 用 户 是 admin) ， 然 后 使 
更 改 。 


设置 的 密码 登录 到 Web 界 面 ， 管 理 员 的 密码 不 能 在 Web 界 面 更 改 ， 必 须 在 后 台 修 改 配置 文件 后 才能 
户 选择 的 密码 替换 yourpassword。 


# echo -n yourpassword | sha256sum 
e3c652f0ba0b4801205814f8b6bc49672c4c74e25b497770bb89b22cdeb4e951 


然后 放置 散 列 密码 : 


root_password sha2 = 


e3c652f0ba0b4801205814f8b6bc49672c4c74e25b497770bb89b22cdeb4e951 


还 可 以 设置 电子 邮件 地 址 root (admin) 上 


root email = "itzgeek.web@gmail .com" 


然后 设置 root (admin) 


户 的 时 区 : 


root timezone = UTC 


Graylog 可 以 尝试 自动 查找 Elasticsearch 节 点 ， 它 使 
茶 换 为 live hostname 或 ipaddress， 可 以 使 


组 播 模式 。 但 是 对 于 较 大 的 网 络 ， 建 议 使 用 最 适合 生产 设置 的 单 播 模式 。 
用 逗号 分 隔 多 个 主机 。 命 令 如 下 : 


因此 ， 将 以 下 两 个 条 目 添加 到 graylog server.conf 文 件 中 ， 将 ipaddress 


elasticsearch http enabled = false 
elasticsearch discovery zen ping unicast hosts 


= ipaddress:9300 


通过 定义 以 下 变量 设置 唯一 的 一 个 3 


节点 ， 默 认 设置 为 true， 但 必须 将 其 设置 为 false， 以 使 特定 


节点 作为 从 属 节点 。 


主 节点 执行 一 些 从 


属 节点 不 执行 的 周期 性 任务 。 


is master = true 


以 下 变量 设置 每 个 索引 保留 的 日 志 消 息 数 ， 建 议 使 用 几 个 较 小 的 索引 ， 而 不 是 较 大 的 索引 。 


elasticsearch max docs per index = 20000000 


以 下 参数 定义 索引 的 总 数 ， 如 果 此 数字 达到 ， 旧 索引 将 被 删除 。 


elasticsearch max number of indices = 20 


分 片 设置 取决 于 Elasticsearch 集 群 中 的 节点 数 ， 如 果 只 有 一 个 节点 ， 则 将 其 设置 为 1。 例 如 : 


elasticsearch shards = 1 


然后 设置 索引 的 副本 数 ， 如 果 Elasticsearch 集 群 中 只 有 一 个 节点 ， 将 其 设置 为 0。 例 如 : 


elasticsearch replicas = 0 


添加 MongoDB 身 份 验证 信息 如 下 : 


mongodb useauth = false 


使 用 以 下 命令 启动 Graylog 服 务 器 。 


# Systemct1 restart graylog-server 


还 可 以 查看 服务 器 启动 日 志 ， 如 果 出 现任 何 问题 ， 则 会 很 有 用 。 


# tailf /var/log/graylog-server/server.1og 


在 成 功 启动 graylog-server 后 ， 应 该 在 日 志文 件 中 收 到 以 下 消息 。 


2015-09-16T21:26:05.689-04:00 INFO [ServerBootstrap] Graylog server up and running. 


下 面 安装 Graylog 网 页 界面 。 


要 配置 graylog-web 界 面 ， 至 少 要 有 一 个 graylog-server 节 点 。 使 用 以 下 命令 安装 Web 界 面 。 


# yum -y install graylog-web 


然后 编辑 配置 文件 并 设置 以 下 参数 : 


# vi /etc/graylog/web/web.conf 


以 下 是 graylog-server 节 点 的 列表 ， 还 可 以 添加 多 个 节点 ， 用 逗号 分 隔 。 


graylog2-server .uris="http://127.0.0.1:12900/" 


设置 应 用 程序 scret， 可 以 使 用 命令 pwgen-N 1-s 96 来 生成 。 


application.secret="sNXyFf6BAALu3GqS1Zwq7En86xpl0JimdxxYiLtpptOejX6tIUpU EADGRJOrcMj07wcKOwugPaapvzEzCYinEWj7BOtHXV152" 


使 用 以 下 命令 重新 启动 gralog-web 界 面 : 


# Systemct1 restart graylog-web 


访问 Graylog Web 界 面 : 


Web 界 面 将 侦 听 端口 9000， 配 置 防 火 墙 以 允许 端口 9000 上 的 流量 。 


# firewall-cmd --permanent --zone=public --add-port=9000/tcp 
# firewall-cmd --reload 


将 浏览 器 指向 http://ip-add-ress:9000， 然 后 使 用 用 户 名 admin 和 在 server.conf 文 件 中 root_password_sha2 选 项 指定 的 密码 登录 。 


7.9 ”本章 小 结 


本 章 主 要 介绍 了 Elastic 栈 日 志 监 控 与 分 析 系 统 的 集群 搭建 与 使 用 。 其 中 重点 介绍 了 管理 Elasticsearch 集 群 的 权限 控制 方法 及 数据 备份 与 恢复 的 方法 ， 可 以 使 用 Nginx 或 者 X-Pack 插 件 实现 Elasticsearch 
写 入 权限 控制 。 为 了 实现 数据 备份 ， 可 以 搭建 Hadoop 平 台 ， 并 存储 ELK 的 历史 数据 。 


Elasticsearch 与 数据 收集 和 日 志 解析 引 警 Logstash、 分 析 和 可 视 化 平台 Kibana 一 起 开发 。 这 三 款 产品 被 设计 成 集成 解决 方案 ， 被 称 为 “Elastic 栈 ” (以 前 称 为 “ELK 栈 ”) 。 


Logstash 事 件 处 理 管道 有 三 个 阶段 : input-filter 一 output。Logstash 早 期 的 版 本 中 ，input、filter、output 分 别 设 置 为 独立 的 线程 ， 连 接 成 一 个 管道 。 但 这 种 架构 方式 会 导致 数据 在 管道 中 乡 次 被 复 
制 ， 造 成 性 能 损耗 。 从 Logstash 2.3 开 始 ，filter 和 output 共 用 一 个 管道 线程 。 


Codec 是 从 Logstash 1.3.0 开 始 引入 的 概念 (Codec 来 自 Coder/Decoder 两 个 单词 的 缩写 ) ， 其 可 以 作为 一 部 分 输入 或 输出 操作 的 流 过 滤器 。 


户 通过 Mailgun 收 发 大 量 电 子 邮件 ， 而 Mailgun 跟 踪 和 存储 每 封 邮 件 发 生 的 每 个 事件 。 每 个 月 会 新 增 数 十 亿 事件 ， 需 要 展示 给 客户 ， 方 便 他 们 进行 数据 分 析 ， 也 就 是 全 文 搜索 ， 利 用 Elasticsearch 和 
Logstash 技 术 可 以 完成 这 个 需 


Elasticsearch 2.0 以 前 的 版 本 使 用 Elasticsearch river 同 步 数 据 库 中 的 数据 到 Elasticsearch。 因 为 Elasticsearch river 在 Elasticsearch 进 程 内 部 运行 ， 运 行 时 需要 额外 的 内 存 、 更 多 的 套 接 字 、 文 件 描述 符 
等 ， 这 样 可 能 导致 集群 不 稳定 。 因 此 当 Elasticsearch river 被 废弃 后 ， 一 些 Elasticsearch river 应 用 后 来 被 实现 为 Logstash 插 件 。 


Logstash 插 件 的 一 些 文档 是 自动 生成 的 ， 源 代码 中 的 注释 将 首先 转换 为 方便 编辑 的 Asciidoc 文 件 ， 然 后 转换 为 HTML 文 件 。 


Flume 是 分 布 式 的 日 志 收 集 系统 ， 其 具有 很 好 的 容错 能 力 、 可 调节 的 可 靠 性 机 制 和 许多 故障 转移 和 恢复 机 制 。 


Graylog 服 务 器 采用 Java 开 发 ， 是 一 个 开源 日 志 管理 平台 ， 也 使 用 Elasticsearch 进 行 存 储 和 搜索 日 志 。 可 以 使 用 Elasticsearch、Graylog 和 MongoDB 构 建 分 布 式 日 志 服务 器 。 


另外 ， 向 读者 推荐 几 个 通用 的 数据 浏览 器 ， 如 DejaVu (网 址 为 https://github.com/appbaseio/dejavu) 、Cerebro (网 址 为 https://github.comy/Imenezes/cerebro/) ， 以 及 ElasticHQ (网 址 
为 https://github.com/ElasticHQ/elasticsearch-HQ) 。 其 中 ，Dejavu 是 Chrome 的 扩展 ，Cerebro 是 使 用 Scala、Play Framework、AngularJS 和 Bootstrap 构 建 的 开源 Elasticsearch Web 管 理工 具 。 


Elasticsearch 系 统 监控 为 随后 的 行为 引导 和 系统 进化 提供 了 可 能 


本 章 首先 介绍 有 助 于 提高 自然 语言 理解 能 力 的 双语 句 对 搜索 ， 然 后 介绍 网 站 内 容 管理 系统 dotCMS 及 其 使 用 的 Elasticsearch 站 内 搜索 。 


8.1 ”双语 句 对 搜索 


提高 对 自然 语言 的 理解 能 力 能 够 提高 搜索 的 准确 度 。 为 了 让 分 词 更 准确 ， 可 以 挖 握 和 利用 一 些 富 含 知识 的 数据 。 双 语句 对 搜索 往往 很 准确 ， 而 且 包含 丰富 的 语言 信息 ， 可 以 作为 数据 挖掘 的 起 点 。 


8.1.1 ”有 拒 虫 抓 取 双 语句 对 


我 们 可 以 使 用 OkHttp (https://github.com/square/okhttp) 下 载 双 语句 对 。 在 项 目 中 引入 两 个 jar 包 : okio-1.13.0,jar 和 okhttp-3.9.1jar。 用 爬虫 抓 取 必 应 词典 的 代码 如 下 : 


lic class GetExample 
P09/ 系统 默认 的 参数 灯 旬 j 建 Okiittpclient 对 象 
OkHttpClient client = new OkHttpClient (); 


String run(String url) throws IOException { 
// 创 建 一 个 请 求 
Request request = new Request .Builder () 
“url (url) 
.build() 
// 同步 但 守 届 
try (Response response = client.newCall (request) .execute()) { 
return response.body() .string(); 
} 
} 


i static void main (String[] args) throws IOException { 
Example example = new GetExample () 7 


六 

String response = example.run("http://cn.bing.com/dict/search? 
qq=windowsil1"); 

System.out .Println (response); // 输 出 抓 取 的 网 页 结 


} 


使 用 Jsoup 解 析 网 页 内 容 ， 提 取 英文 和 中 文 翻译 对 照 句子 。 


Document doc = Jsoup.parse (content); 
Elements elementsLi = doc.select(".se 1i"); // 根 据 cSS 的 class 类 型 选择 元 素 


for (Element pairs : elementsLi) { 

Element s = pairs.select(".se 1i1") .first (); // 选 取 第 一 个 se_1i1 样 式 的 元 素 
// 选 取 第 一 个 sen_en 样 式 元 素 的 文本 一 

String senEn = s.select(".sen en") .fitst() .text () 7 

// 选 取 第 一 个 sen_cn 样 式 元 素 的 文本 “ 


String senCn = s.select(" .sen_cn") .fijrst() .text () 7 


System.out .Println(senCn) 7 // 输 出 中 文句 子 
System.out .println (senEn); // 输 出 英文 句子 


} 


8.1.2 ”英文 分 词 


如 果 未 指定 所 使 用 的 分 析 器 ， 那 么 默认 使 用 的 是 Standard Analyzer， 可 以 切 分 出 英文 分 词 。 为 了 更 深入 地 分 析 英 文 文章 ， 可 以 专门 开发 针对 英文 的 分 析 器 。 


8.1.3 句子 切 分 


句子 切 分 并 不 是 一 个 简单 的 问题 。 标 点 符号 “? ”和 “! ”的 含义 比较 单一 。 但 是 “.” 有 很 多 种 不 同 的 用 法 ， 并 不 一 定 是 句子 的 结尾 。 例 如 ，“MrVinken is chairman of Elsevier N.V.，the Dutch 
publishing group.” 需 要 排除 掉 一 部 分 情况 ， 如 果 “.” 是 某 个 短语 中 间 的 一 部 分 ， 则 它 不 是 句子 的 结尾 。 这 里 的 Mr.Vinken 是 一 个 人 名 短语 ， 如 果 这 个 人 名 正好 不 在 词典 中 ， 则 可 以 根据 上 下 文 识别 规则 识 
别 出 这 个 短语 。 示 例如 下 : 


// 输 入 文本 

String text= "Mr. Vinken is chairman of Elsevier N.V., the Dutch publishing group."™; 
// 构 建英 文 文档 类 

EnText enText = new EnText (text); ee 

for (Sentence sent:enText){ // 遍 历 文档 中 的 句子 


System.out .println(sent); // 因 为 输入 是 一 个 句子 ， 所 以 这 里 只 会 打印 出 一 个 句子 
} 


Java 中 的 Breaklterator 类 已 经 包含 了 切 分 句子 的 功能 ， 可 以 用 它 实现 一 个 英文 句子 迭代 器 。 代 码 如 下 : 


// SentBreakIterator 实 现 Iterator 接 口 
Private final static class SentBreakIterator implements Iterator<Sentence> { 


String text; // 文 本 
int start; // 开 始 位置 
int end; // 结 束 位 置 


// 根据 英文 标点 符号 切 分 
static final BreakIterator boundary = BreakIterator 
.getSentenceInstance (Locale .ENGLISH); 


public SentBreakIterator (String t) { 
text = t; 
// 设 置 要 处 理 的 文本 
boundary. setText (text); 
start = boundary.first (); // 开 始 位 置 
end = boundary.next (); 

} // 用 于 和 迭代 的 类 

QOverride 

public boolean hasNext () { // 看 迭代 是 否 已 经 结束 
return (end != BreakIterator .DONE); 

} 


QOverride 
public Sentence next() { 
String sent = text.substring (start, end); // 切 分 出 句子 


Sentence sentence = new Sentence (sent，start，end); // 构 建 句子 对 象 
start = end; 

end = boundary.next () 7 

return sentence; 


Breaklterator 切 分 得 不 太 准 确 ， 所 以 我 们 自己 写 一 个 句子 切 分 器 。 输 入 当前 切 分 点 ， 找 下 一 个 切 分 点 的 代码 如 下 : 


public static int nextPoint (String text, int 1astEOS) 1{ 
int i = lastEOS7 
while (i < text.length()) { 

// 跳 过 短语 

i = skipPhrase (text, i); 


// 然 后 再 找 标点 符号 
String toFind = eosDic.matchLong (text, i); // 匹 配 标点 符号 词典 
if (toFind != null) { 
// 判 断 是 否 是 有 效 的 可 切 分 点 。 例 如 ， 在 括号 中 的 标点 符号 不 是 有 效 的 可 切 分 点 
boolean isEndPoint = isSplitPoint (text, lastEOS, i); 
if (isEndPoint) { 
return i + toFind.length(); 
} 
i= i+ toFind.length(); 
} else { // 没 找到 
站 
} 
return text.length(); // 返 回 最 大 长 度 
} 


Sentlterator 是 一 个 用 于 迭代 英文 文本 返回 句子 的 内 部 类 ， 实 现代 码 如 下 : 


private final static class SentIterator implements Iterator<Sentence> { // 实 现 迭 代 器 
String text; 
int lastEOS = 0; // 返 回 当 前 处 理 到 的 位 置 


public SentIterator (String 七 ) { 
text = t; 
} 


QOverride a 

public boolean hasNext () { // 看 是 否 还 有 下 一 个 句子 
return (lastEOS < text.length()); 

} 


QOverride 
public Sentence next() { // 返 回 下 一 个 句子 
int nextEOS = EnSentenceSpliter.nextPoint (text, 1LastEOS) // 得 到 句子 结束 位 置 


String sent = text.substring (lastEOS, nextEOS); 

Sentence sentence = new Sentence (sent，1astEOS，mnextEOS) ; // 构 造 出 句子 
JastEOS = nextEOS; 

return sentence; // 返 回 句子 


8.14 标注 词性 


采集 下 来 的 英文 句子 可 以 标注 其 中 单词 的 词性 。 例 如 一 段 英文 : 
Cats never fail to fascinate human beings.They can be friendly and affectionate towards humans, but they lead mysterious lives of their own as well. 


标注 词性 后 的 结果 是 : 


Cats(n.) never fail(v.) to(Prep) fascinate (vV.) human(n.) beings (n.) . 
They (Pron.) can (aux.) be(v.) friendly(adj.) and(conj.) affectionate (adj.) 
towards (prep) humans(n.) but (conj.) they(n.) lead(v.) mysterious (adj .) 
lives(n.) of(prep.) their(n.) own(n.) as well (adv.). 


这 里 用 编码 来 表示 词性 ， 括 号 中 的 输出 是 词性 编码 。 有 些 汉语 中 的 量词 是 英语 中 没有 的 ， 如 件 、 个 、 艘 。 而 英语 中 也 有 一 些 独 有 的 词性 ， 如 冠 词 a、an、the。 英 文 词性 编码 表 如 表 8-1 所 示 。 


表 8-1 英文 词性 编码 表 


代 码 名 称 
n 名 词 
adj. 形容 词 
adv. 副词 
art 冠 词 
( 续 ) 
代 码 名 称 
pos. 所 有 格 
pron. 代词 
aux. 情态 助动词 
conj. 连接 词 
V. 动词 
num. 数 词 
prep. 介词 
punct. 标点 符号 
int. 感叹 词 


词性 标注 的 流程 图 如 图 8-1 所 示 。 


所 有 候选 词性 序列 


调整 后 的 词性 序列 


和 中 文 词性 标注 一 样 ， 可 以 使 用 隐 马 可 夫 模 型 进行 英文 词性 标注 。 英 文 词性 标注 语料库 和 中 文 词性 标注 语料库 不 一 样 ， 可 以 从 GitHub 网 站 上 找到 一 些 免费 的 词性 标准 语料库 。 


下 面 来 看 标注 规则 ， 例 如 1 like it 对 应 的 词性 序列 为 [pron v pron]。 


key = new ArrayList<PartOfSpeech> () 7 


key.add (PartOfSpeech.pron) ; //I 
key.add (PartOfSpeech.v); //like 
key.add (PartOfSpeech.pron); //it 


posTrie.addProduct (key); 


实现 代码 如 下 : 


public static ArrayList<WordToken> getWords (Sentence sent){ 
ArrayList<WordTokenInf> words = Segmenter.seg (sent); // 先 分 词 
WordType[] tags = g.tag (words ee // 标 注 词性 

// 再 把 词性 和 词 本 身 结合 起 来 ， 返 回 完整 的 词性 标注 结果 

int i=0; 

ArrayList<WordToken> tokens = new ArrayList<WordToken>(); 


for (WordTokenInf w:words){ 
WordToken t = new WordToken (w.baseForm,w.termText,w.start,w.end, 
tags[i]); 
++iy 
tokens .add (七 ) 7 
i 


return tokens; 


} 


8.1.5” 词 对 齐 


可 以 从 对 齐 语料库 中 挖掘 双语 词典 及 词 之 间 的 搭配 关系 。 找 出 中 、 英 文 对 照 词 表 的 方法 ， 又 叫做 词 对 齐 (word alignment) 。 最 简单 的 词 对 齐 就 是 从 前 往 后 逐个 词 地 对 应 。 


Beijing Subway， 其 中 前 后 两 个 词 是 按 顺 序 对 齐 的 。 


例如 “北京 地 铁 ” 翻 译 成 


HashMap<String, String> wordMap = new HashMap<String, String>(); // 词 语 对 照 表 

String enSent = "Beijing Subway"; // 英 语句 子 

String cnSent = "北京 地 铁 "; // 中 文句 子 

StringTokenizer enTokenizer = new StringTokenizer (enSent); // 用 空格 分 割 英文 句子 
StringTokenizer cnTokenizer = new StringTokenizer (CnSent) 7 _ // 用 空格 分 割 中 文句 子 
while (enTokenizer.hasMoreElements () ) { // 有 更 多 的 词 没 遍历 完 


wordMap .put (cnTokenizer .nextToken () ,enTokenizer.nextToken () ); 


for (Entry<String, String> e:wordMap.entrySet()){ // 输 出 对 照 词 表 
System.out .Println (e.getKey()+":"+e.getValue ()) 7 


词 对 齐 的 结果 是 两 个 词 之 间 的 双向 图 ， 有 一 条 有 向 线段 连接 两 个 单词 ， 当 且 仪 当 它 们 是 彼此 的 翻译 。 一 个 词 对 齐 的 例子 如 图 8-2 所 示 。 


house 


图 8-2 ” 词 对 齐 


这 个 对 齐 的 概率 就 是 p ( 红 |red) 和 p (房子 Ihouse) 的 乘积 。 汉 语句 子 的 联合 概率 及 其 对 应 的 英语 对 齐 调整 是 所 有 这 些 概率 的 乘积 。 形 式 化 的 写法 如 下 : 


P(A4.F|E)= |] flea) 


7 一] 


假设 训练 语料库 中 有 两 个 对 齐 的 句子 : 


第 


红 / 


red house the house 


房子 和 red house 的 两 种 对 齐 方式 如 图 8-3 所 示 。 


red house red house 


痊 


红 房子 红 房子 


图 8-3” 红 房子 和 red house 两 种 可 能 的 对 齐 方式 
第 一 种 对 齐 方 式 的 写法 是 A={1，2}; 第 二 种 对 齐 方式 的 写法 是 A={2，1}。 


aremax P(F,A|E) 
A 


a re (fse) SI 


“ 玉 阶 段 : 使 用 当前 的 翻译 概率 计算 训练 数据 所 有 可 能 对 齐 的 概率 ; 


* M 阶 段 : 使 用 这 些 对 齐 概率 的 估计 去 重新 估计 所 有 的 翻译 概率 。 


重复 E 和 M 阶 段 直 到 翻译 概率 值 收敛 为 止 。 


“ 初始 阶段 : 


“ 所 有 的 词 按 相 等 可 能 对 齐 ; 


“ 所 有 的 P (中 文 单词 | 英文 单词 ) 都 相同 。 


例如 ， 这 里 有 3 个 英文 单词 {red，house，the}，3 个 中 文 单词 红 ， 房 子 ， 这 }。 


英文 Eee 红 房 子 这 
red 1/3 1/3 1/3 
house 1/3 1/3 1/3 
the 1/3 1/3 1/3 


计算 对 齐 概率 P (A，F|E) ， 就 是 翻译 概率 的 连 乘积 。 计 算 P (A，F|E) 的 公式 如 下 : 本 
A,F |E)= | |i flea,) 
P(A,F|E)= | {if es 
本 J 


red house red house 


红 房子 红 房子 
1 1_1 1 1_1 


3 3 9 3 3 9 
P(4,Fl" red house") 的 对 齐 概率 


the house the house 


| 


这 房子 这 ”房子 


1 1 | 1 1 | 
a OT ae 
CE 3 3 


P(4,Fl"the house") 的 对 并 概率 


1| 9 1] 


| es Ee" 


9 2 | 


一 


red house red house the house 


| 


红 房子 红 房子 这 房子 
I 1 
2 2 py 


M 阶 段 根据 P (AIF，E) 计算 词 的 翻译 概率 。 计 算 加 权 翻 译 计 数 C (fji，ea (jj) ) +=P (ale，f) 。 得 到 的 翻译 概率 如 表 8-3 所 示 。 


表 8-3 更 新 后 的 翻译 概率 


the house 


这 ”房子 


例如 ，C ( 红 ，red) =0.5、C (房子 , red) =0.5。 


归 一 化 行 ， 按 行 加 的 值 是 1， 得 到 翻译 概率 如 表 8-4 所 示 。 


2 

; 

4 多 

1 
| 


例如 ，t ( 红 |red) =0.5 t (房子 |red) =0.5 


根据 翻译 概率 乘积 来 估计 P (fle) : 


P(A4,F 1E)=1 ltilea,) 


重新 计算 对 齐 概率 P (A,F|E) : 


red house red house the house 


这 房子 


一 勾 一 三 一 1 ,lil_l 
2 2 4 2 4 8 2 2 4 


P(A,FIE) 
4P(4， F|E) 


red house 


P(AIE,F)= 


可 以 归 一 化 进一步 得 到 P (A，F|E) 的 准确 值 


red house the house 


这 房子 
SS 这 1] 8 1 1 .8 忆 
—X 一 二 一 一 一 一 一 一 X 一 一 一 
4 3 3 8 3 3 3 4 3 


继续 进行 EM 和 迭代， 直到 翻译 参数 收敛 为 止 。 相 关 实 现代 码 可 参考 Berkeley Aligner ( 见 网 址 https://github.com/mhajiloo/berkeleyaligner) 。 


8.1.6 索引 数据 


定义 索引 库 结构 ， 代 码 如 下 : 


the house 


这 ”房子 


the house 


这 ”房子 


{ 
"mappings": { 


"ensent": { // 英 文句 子 
"type": "string", 
"analyzer": "english" 
}, 
"cnsent": { // 中 文句 子 
"Eype”: "string", 
"analyzer": "cn analyzer" 


} 
} 


放 入 索引 数据 ， 代 码 如 下 : 


String id="2"; // 唯 一 列 的 值 
IndexRequestBuilder indexRequestBuilder = client.prepareIndex( 
"corpus", "encn", id); 
Map<String, String> source = new HashMap<>(); 
source.put ("ensent", "We wandered down the block and sat down to rest on 
a windowsill."); 
source.put ("cnsent"， "我 们 漫步 走 过 这 片 街区 ， 然 后 在 一 排 窗台 前 坐 下 休息 。") ; 


indexRequestBuilder.setSource (source); 
IndexResponse response = indexRequestBuilder.execute() .actionGet () 


查询 数据 ， 代 码 如 下 : 


SearchResponse response = client 
.PrepareSearch () 
.setIndices (INDEX NAME) // 设 置 索 引 名 为 corpus 
.setTypes ("encn") // 设 置 索引 类 型 为 encn 
.SetQuery (QueryBuilders .matchQuery ("ensent", "windowsil1") ) // 查 询 词 
.execute () .actionGet (); 


8.2 内容 管理 系统 站 内 检索 


dotCMS 是 Java 开 发 的 开放 源 代 码 内 容 管理 系统 (CMS) ， 可 以 使 用 REST API 进 行 存储 /更 新 和 检索 。 


为 了 安装 dotCMS， 需 要 下 载 并 安装 JDK 1.8， 安 装 的 文件 夹 名 称 和 路 径 不 能 包含 空格 。 


可 以 从 https://dotcms.com/download/ 下 载 dotcms 4.1.1.tar.gz。 解 压缩 后 在 Linux/OS-X/Unix 下 启动 服务 : 


./bin/startup.sh 


这 样 实际 上 就 是 启动 了 一 个 Tomcat 实 例 。 


8.2.1 MySQL 数据 库 


虽然 dotCMS 积 极地 缓存 并 会 尝试 限制 网 站 前 端的 数据 库 流量 ， 但 是 数据 库 仍然 是 整个 dotCMS 系 统 的 重要 组 成 部 分 ， 数 据 库 性 能 对 dotCMS 是 至 关 重 要 的 ， 尤 其 是 在 创作 环境 下 。 


里 


L。 方法 是 : 打开 tomcat-8.0.18\webapps\ROOT\META-INF\context.xml， 将 MySQL 部 分 的 注释 去 掉 ， 将 H2 注 释 掉 ， 同 时 配置 需要 连接 的 数据 


dotCMS 默 认 使 用 的 数据 库 是 H2， 可 以 更 改 为 MySQ 
库 名 称 、 用 户 名 和 密码 。 代 码 如 下 : 


<Resource name="jdbc/dotCMSPool" auth="Container" 
type="javax.sql.DataSource" driverClassName="com.mysql .jdbc.Driver™" 
url="jdbc:mysql://localhost/dotcms?characterEncoding=UTF-8" 
username="{your db user}" password="{your db password}" maxTotal="60" 
maxIdle="10" maxWaitMillis="60000" 
removeAbandonedonBorrow="true" removeAbandonedonMaintenance="true" 
removeAbandonedTimeout="60" logAbandoned="true" 
timeBetweenEvictionRunsMillis="30000" validationQuery="SELECT 1" 
testOnBorrow="true" testWhileIdle="true" /> 


强烈 建议 对 context.xml 文 件 进行 的 所 有 更 改 都 通过 插件 中 的 ROOT 文件 夹 来 操作 。 


创建 dotCMS 表 时 ， 请 确保 使 用 UTF-8 字 符 集 和 DEFAULT UTF-8 排 序 规则 来 创建 。 例 如 : 


create database dotcms zip default character set = utf8 default collate = utf8 general ci; 


如 果 MySQL 启 用 了 二 进 制 日 志 ， 则 将 以 下 内 容 放 入 my.cnf 文 件 (对 于 UNIX/Mac OS) 或 my.ini 文 件 (对 于 Windows) : 


log-bin = /path/to/log-bin/file 
binlog-format=row 
lower_case table names=1 


MySQL 5 中 的 mysqldump 默 认 情况 下 将 备份 所 有 触发 器 ， 但 不 备份 存储 过 程 /函数 。 有 两 个 控制 备份 的 mysqldump 参 数 如 下 : 
:toutines (默认 为 FALSE ， 备 份 存储 过 程 ) ; 
ttiggers (默认 为 TRUE ， 备 份 触发 器 ) 。 


为 了 确保 存储 /备份 中 包含 dotCMS 存 储 过 程 ， 必 须 将 -routines 参 数 传递 给 mysqldump， 命 令 如 下 : 


#mysqldump --routines > outputfile.sql 


8.2.2 RESTful API 管 理 索 引 


dotCMS 使 用 RESTful APl 来 管理 网 站 搜索 索引 ， 也 可 以 用 CURL 通 过 命令 行 来 管理 索引 。 


， 并 提供 YOURINDEXNAME (你 的 索引 名 字 ) 、YOURINDEX (你 的 索引 ) 、YOURPATH (你 的 路 径 ) 或 


在 以 下 所 有 命令 行 示例 中 ,将 “localhost: 8080” 蔡 换 为 你 的 dotCMS 实 例 域名 或 端 
DESIRED_REPLICAS_NUMBER (期 望 的 副本 数量 ) 的 实际 值 。 


在 dotCMS 后 端 上 ， 单 击 “ 站 点 搜索 ”| “索引 ”选项 卡 上 的 “刷新 ”按钮 ， 可 以 查看 CURL 命 令 对 索引 的 更 改 ， 而 不 是 刷新 浏览 器 。 


我 们 可 以 创建 一 个 新 的 索引 。 以 下 命令 将 创建 一 个 新 的 索引 ， 默 认 情 况 下 ， 它 将 被 命名 为 sitesearch_[timestamp]。 


#curl http://localhost:8080/DotAjaxDirector/com.dotmarketing.sitesearch. 
ajax.SiteSearchAjaxAction/u/admin@dotcms.com/p/admin/cmd/createSiteSear 
chIindex/shards/2 


提供 一 个 索引 别名 ,命令 如 下 : 


#curl http://localhost:8080/DotAjaxDirector/com.dotmarketing.sitesearch. 
ajax.SiteSearchAjaxAction/u/admin@dotcms.com/p/admin/cmd/createSiteSear 
chIindex/shards/2/alias/YOURINDEXALIAS 


这 样 将 会 创建 一 个 具有 指定 别名 的 网 站 搜索 索引 。 


通过 以 下 命令 将 把 索引 下 载 到 一 个 文件 中 。 


#curl http://localhost:8080/DotAjaxDirector/com.dotmarketing.sitesearch. 
ajax.SiteSearchAjaxAction/u/admin@dotcms.com/p/admin/cmd/downloadIndex/ 
indexName/YOURINDEXNAME/ > INDEXNAME .zip 


这 里 将 索引 作为 JSJON 压 缩 文件 进行 下 载 。 


也 可 以 根据 别名 下 载 索引 。 命 令 如 下 : 


#curl http://localhost:8080/DotAjaxDirector/com.dotmarketing.sitesearch. 
ajax.SiteSearchAjaxAction/u/admin@dotcms.com/p/admin/cmd/downloadIndex/ 
indexAlias/YOURINDEXALIAS/ > INDEXALIAS.zip 


还 可 以 恢复 索引 。 如 果 指 定 了 aliasToRestore， 则 恢复 到 关联 的 索引 : 


#curl -F aliasToRestore=torestore -F clearBeforeRestore=true -F 
uploadedfiles[]=@sitesearch 20120611161645.zip http://localhost:8080/ 
DotAjaxDirector/com.dotmarketing.sitesearch.ajax. SiteSearchAjaxAction/ 
u/admin@dotcms.com/p/admin/cmd/restoreIndex 


如 果 没 有 指定 indexToRestore 或 aliasToRestore 选 项 ， 则 通过 默认 索引 完成 恢复 : 


#curl -F uploadedfiles[]=@sitesearch 20120611161645.zip http://localhost: 
8080/DotAjaxDirector/com. dotmarketing.sitesearch.ajax. 
SiteSearchAjaxAction/u/admin@dotcms.com/p/admin/cmd/restoreIndex 
AjaxAction/u/admin@dotcms.com/p/admin/cmd/restoreIndex 


需要 注意 的 是 : “还 原 索引 ”的 CURL 命 令 是 异步 发 生 的 ， 并 且 在 索引 被 上 传 之 后 而 且 被 还 原 到 ElasticSearch 之 前 将 会 返回 。 要 查看 正在 恢复 的 索引 进度 ， 可 以 刷新 索引 列表 屏幕 。 


清理 索引 ， 命 令 如 下 : 


#curl http://localhost:8080/DotAjaxDirector/com.dotmarketing.sitesearch. 
ajax.SiteSearchAjaxAction/u/admin@dotcms.com/p/admin/cmd/clearIndex/ 
indexName/YOURINDEXNAME 


激活 索引 ， 命 令 如 下 : 


#curl http://localhost:8080/DotAjaxDirector/com.dotmarketing.sitesearch. 
ajax.SiteSearchAjaxAction/u/admin@dotcms.com/p/admin/cmd/activateIndex/ 
indexName/YOURINDEXNAME 


禁用 索引 ， 命 令 如 下 : 


#curl http://localhost:8080/DotAjaxDirector/com.dotmarketing. 
sitesearch.ajax.SiteSearchAjaxAction/u/admin@dotcms.com/p/admin/cmd/ 
deactivateIndex/indexName/YOURINDEXNAME 


列 出 所 有 非 活跃 的 索引 ， 命 令 如 下 : 


#curl http://localhost:8080/DotAjaxDirector/com.dotmarketing. 
sitesearch.ajax.SiteSearchAjaxAction/u/admin@dotcms.com/p/admin/ 
cmd/getNotActiveIndexNames 


删除 索引 ， 命 令 如 下 : 


#curl http://localhost:8080/DotAjaxDirector/com.dotmarketing. 
sitesearch.ajax.SiteSearchAjaxAction/u/admin@dotcms.com/p/admin/ 
cmd/deleteIndex/indexName/YOURINDEXNAME 


获取 索引 名 称 ， 命 令 如 下 : 


#curl http://localhost:8080/DotAjaxDirector/com.dotmarketing. 
sitesearch.ajax.SiteSearchAjaxAction/u/admin@dotcms.com/p/admin/ 
cmd/getIindexName/indexAlias/YOURINDEXALIAS 


更 新 副本 ， 命 令 如 下 : 


#curl http://localhost:8080/DotAjaxDirector/com.dotmarketing.sitesearch. 
ajax.SiteSearchAjaxAction/u/admin@dotcms.com/p/admin/cmd/updateReplicas/ 
indexName/YOURINDEXNAME/replicas/DESIRED REPLICAS NUMBER 


删除 搜索 作业 ， 命 令 如 下 : 


#curl http://localhost:8080/DotAjaxDirector/com.dotmarketing.sitesearch. 
ajax.SiteSearchAjaxAction/u/admin@dotcms.com/p/admin/cmd/deleteJob/ 
taskName/YOURTASKNAME 


8.2.3 ”自动 客服 机 器 人 


浏览 公司 网 站 的 潜在 客户 有 时 需要 在 线 客服 提供 一 对 一 的 解答 和 服务 。 为 了 节省 人 力 成 本 ， 可 以 开发 自动 客服 机 器 人 ， 回 答 一 些 简单 和 常见 的 问题 。 


HTTP 协 议 中 的 通信 只 能 由 客户 端 发 起 。 使 用 WS 或 者 WSs 协 议 的 WebSocket 人 允许 服务 器 端 发 起 通信 。Websocket 是 HTML 5 开始 提供 的 一 种 浏览 器 与 服务 器 间 进 行 全 双 工 通信 的 网 络 技术 。 依 靠 这 种 技 
术 可 以 实现 客户 端 和 服务 器 端的 长 连接 ， 双 向 实时 通信 。 


Websocket 的 工作 流程 是 : 浏览 器 通过 Javascript 向 服务 端 发 出 建立 Websocket 连 接 的 请 求 ， 在 WebSsocket 连 接 建 立成 功 后 ， 客 户 端 和 服务 端 就 可 以 通过 TCP 连 接 传输 数据 。 


服务 器 端 采 用 Java 实 现 ， 可 以 运行 在 支持 WebScoket 的 Web 服 务 器 中 ， 这 里 是 Tomcat。 而 客户 端 则 是 运行 在 浏览 器 中 包含 JavaScript 调 用 的 HTML 网 页 ， 只 有 一 些 新 的 浏览 器 支持 WebScoket， 如 
Chrome 或 者 FireFox。 


Java 服 务 器 端 代码 如 下 : 


/** 


* 通过 @ServerEndpoint 注解 指定 客户 端 访问 的 URL 地 址 
*/ 


@ServerEndpoint ("/Chat/ {who}") 
public class Chat { 


/** 

* 连接 建立 成 功 调用 的 方法 

* Q@param session 可 选 的 参数 。 需 要 通过 Session 来 给 客户 端 发 送 数据 

* 
# 

@OnOpen 

public void onMessage (@PathParam("who") String who, Session session) { 
push ("欢迎 与 机 器 人 对 话 "，session); 

} 


/x** 


* 收 到 客户 端 消息 后 调用 这 个 方法 
* @param message 客户 端 发 送 过 来 的 消息 
* @param session 可 选 的 参数 
六 
/ 
@OnMessage 
public void onMessage (@PathParam("who") String who, String message, 
Session session) { 
String ans = "hi"7 
push ("机 器 人 回答 : " + ans，session) ; // 向 客户 端 返回 信息 
了 


/** 
* 发 生 错误 时 调用 
* Q@param session 
* @param error 
*/ 
QONnError 
public void onError (Session session, 
java.lang.Throwable throwable){ 
System.out .Println("client onError executed." +throwable); 
} 


大 大 


* 关闭 连接 
A 
QOnClose 
public void onClose() { 
String message = "has disconnection."7 


System.out .Println (message); 


大 大 


人 导入 各 人 六 


public void push (String message, Session session) { 
session.getAsyncRemote () .sendText (message); 


用 于 测试 的 客户 端 Java 代 码 如 下 : 


Q@ClientEndpoint 
public class WebsocketClientEndpoint { 
Session userSession = null; / /保存 和 服务 器 的 会 话 连 接 


private MessageHandler messageHandler; // 消 息 处 理 器 


public WebsocketClientEndpoint (URI endpointURI) { 
try 1{ 
WebSocketContainer container = 
ContainerProvider.getWebSocketContainer (); 
container.connectToServer (this, endpointURI); 
} catch (Exception e) { 
throw new RuntimeException (e); 


件 的 回调 钩子 


* @param userSession 打开 的 userSession 
医大 
QOnOpen 
public void onOpen (Session userSession) { 
System.out .println ("opening websocket"); 
this.userSession = userSession; 


六 大 


* 用 于 连接 关闭 事件 的 回调 钩子 


* @param userSession 将 要 关闭 的 userSession 
* @param reason 连 接 关 闭 的 原因 
x 
/ 
Q@OnClose 
public void onClose (Session userSession, CloseReason reason) { 
System.out .Println("closing websocket"); 
this.userSession = null; 


大 大 


* 消 息 事 件 的 回调 钧 子 。 当 一 个 客户 端 发 送 一 条 消息 时 ， 将 调用 该 方法 


* @param message 文 本 消息 


@OnMessage 

public void onMessage (String message) { 
if (this.messageHandler != null) { 

this.messageHandler .handleMessage (message); 

} 

} 

六 

* 注 册 消息 处 理 器 

太 


* @param msgHandler 
多 
public void addMessageHandler (MessageHandler msgHandler) { 
this.messageHandler = msgHandler; 
} 


/** 
* 发 送 消息 


* Qparam message 
本 
public void sendMessage (String message) { 
this.userSession.getAsyncRemote () .sendText (message) 
} 


大 大 
* 消 息 处 理 器 
A 
public static interface MessageHandler { 
public void handleMessage (String message); 
} 


通过 IP 地 址 123.56.152.236 测 试 客户 端 。 代 码 如 下 : 


String url = "ws://123.56.152.236/bot/chat/luogang"; // 连 接 服务 器 的 URI 地 址 
final WebsocketClientEndpoint clientEndPoint = 
new WebsocketClientEndpoint (new URI (ur1) ) 7 


// 添 加 监听 器 
clientEndPoint.addqMessageHandler (new WebsocketClientEndpoint.MessageHandler () 
public void handleMessage (String message) { 
System.out .println (message); 
} 
]) 


// 为 了 接收 从 WebSocket 来 的 消息 ， 等 待 5 秒 
Thread. sleep (5000); 


然后 完成 实际 的 网 页 客户 端 。 先 引入 reconnecting-websocket,js: 


<script language="JavaScript" type="text/javascript" src="reconnecting- 
websocket .js"></script> 


使 用 WebSocket 实 现 和 服务 器 端 聊天 的 网 页 源 代 码 如 下 : 


<body> 
<div id="logs"></div> // 用 于 显示 对 话 的 历史 记录 
<div> 

<input id="msg" type="text" placeholder=" 消 息 " 


// 处 理 回 车 符 
onkeydown = "if (event.keyCode == 13) document .getElementById 
('btnSearch') .click()" 


/> 
<button id="btnSearch" type="submit" value="talk" onClick="talk()"> 
说 话 </button> 
</div> 
<script> 
var iam = ' 我 '; 
var host = location.origin.replace(/^http/，'ws');  // 主 机 名 
Var context = window.location.pathname.substring (0, 
window.1location.pathname.indexof ('/', 2)); // 路 径 
var url = host + context + '/Chat/' + iam; // 服 务 器 端的 Ws 地 址 
Var Ws = new ReconnectingWebSocket (ur1) 7 // 和 服务 器 端 建立 连接 
ws .onmessage = function (message) { // 处 理 服务 器 返回 的 消息 内 容 


Var tag = document.createElement ('p'); 

tag.appendChild (qocument .createTextNoqde (message.data) ) 7 
document .getElementById('1ogs') .appendChild (tag); 

}; 


function talk() { // 向 服务 器 发 送 消息 
Var msg = document .getElementById('msg') .value; 
if (msg) { 
ws.send (msg); // 通 过 WebSocket 发 送 消息 
document .getElementById('msg') .value = ''; // 重 置 输入 框 中 的 消息 内 容 


Var tag = document .createElement ('p'); 
tag.appendChild (qocument .createTextNode (iam +':'+msg)); 
document .getElementById('l0gs') .appendCchild (tag); // 记 录 发 送 的 消息 历史 


</script> 
</body> 


可 以 用 胞 虫 抓 取 问 题 ， 然 后 蔡 换 其 中 的 关键 词 为 通用 的 类 别 ， 就 能 得 到 问 句 模板 。 例 如 ， 问 句 “ 糖 尿 病 怎么 治疗 ”替换 其 中 的 “糖尿 病 ” 为 疾病 名 ， 得 到 问 句 模板 “< 疾病 > 怎么 治疗 ”， 把 这 样 的 方法 
叫做 泛 化 。 例 如 ， 问 句 “ 载 人 飞船 从 地 球 到 火星 需要 多 长 时 间 ? ” 泛 化 成 “< 交通 工具 > 从 < 地 点 > 到 < 地 点 > 需要 多 长 时 间 ? ”。 


答案 句 也 可 以 做 泛 化 处 理 ， 如 问 句 “多 功能 监控 表 的 宽 范 围 交 /直流 通用 电源 是 多 少 ? ”对 应 的 答案 句 “ 宽 范围 交 直流 通用 电源 : AC/DC 80V~270V”， 能 泛 化 成 : <num>V~<num>V。 


H 


不 同意 图 的 问 句 需要 不 同 的 处 理 方式 。 例 如 “1 加 1” 和 “今天 天 气 怎 么 样 ”需要 不 同 的 处 理 器 。 现 有 的 一 些 处 理 器 包括 : 


. 处 理 简 单 问答 对 用 的 ChatHandler; 
“ 处 理 加 法 的 AddHandler; 
' 处 理 英文 单词 的 WordHandler 等 。 


处 理 器 从 问 句 提取 关键 词 ， 提 取出 来 的 关键 词 以 键 / 值 对 的 形式 存 入 PairListString 对 象 。 


// 键 可 以 重复 
Public class PairListString { 
String[] values; / /存储 所 有 名 称 和 值 


int count; 


public PairListString (int initialCapacity) { 
values = new String[initialCapacity * 2]; 


} 


大大 


* 增加 一 个 名 称 / 值 对 


* @param x 名 称 
Pesan y 名 称 对 应 的 值 


public void addPair (String x, String y) { 
if (count * 2 >= values.length) { 
values = Arrays.copyOf (values, values.length * 2); 


} 


values[count * 2] = x; 
values[count * 2+1] = Y7 
Count++; 
} 
public String getX(int index) { // 根 据 下 标 得 到 键 


return values [index * 2]; 


} 


public String getY(int index) { // 根 据 下 标 得 到 值 
return values[index * 2 + 1]; 


} 


public String get (String key){ // 得 到 键 对 应 的 值 
for (int i = 0; i < count; ++i) { 
if(values[i * 2] .equals (key)){ 
return values[i * 2 + 1]; 
} 
} 


return null; 
} 
} 


使 用 这 个 类 存放 从 间 句 “糖尿 病 怎么 治疗 ”中 提取 的 参数 ， 示 例 代 码 如 下 : 


PairListString questionArgs = new PairListString(1); 


String type = "DiseaseName"; // 键 
String diseaseName = "糖尿 病 "7 // 值 


questionArgs.addPair (type, diseaseName); 
System.out .println (questionArgs.get (type)); // 输 出 糖尿 病 


动态 加 载 问 句 处 理 器 如 下 : 


String handleClass = "questionHandler."+handleName+"Handler"; // 得 到 类 名 
Class<? extends QuestionHandler> clz = Class.forName (handleClass) 
.asSubclass (QuestionHandler.class); // 返 回 QuestionHandler 的 子 类 


QuestionHandler answer = clz.newInstance(); // 得 到 问 名 处 理 器 
String ans = answer.getAnswer (kb,g.questionArgs);  // 依 据 问 句 处 理 器 返回 答案 
一 个 问 句 所 得 到 的 规则 对 象 如 下 : 
public class Rule { 
public ArrayList<String> rhs = 

new ArrayList<String>(); // 右 边 的 Token 类 型 序列 
public ArrayList<TokenType> lhs = 

new RrrayList<TokenType> () ; // 左 边 的 Token 类 型 序列 


Public HashMap<String, HashSet<String>> words = new HashMap<String, 
HashSet<String>>() ;// 词 表 
} 


处 理 问 句 的 规则 如 下 : 


String ruleStr = "<num>{plusnuml} 加 <num>{plusnum2}"; 
ArrayList<RuleToken> tokens = IERuleParser.getSeq (ruleStr, 67) ;// 规 则 及 编号 
for (RuleToken 七 : tokens) { 


System.out .Println (七 ) 7 // 输 出 规则 中 的 每 个 Token 

} 

Rule rule = RuleBuilder.create (tokens); // 根 据 Token 序 列 创建 规则 
System.out .Println(rule) // 输 出 生成 的 问 句 规则 
System.out .Println("is valid:"+rule.valid()); // 验 证 问 句 规则 是 否 有 效 
根据 问 句 模板 处 理 问 句 

QuestionGrammar g = new QuestionGrammar () 7 // 问 句 文法 库 

String right = "<Begin><num>{plusnum1l} 加 <num>{plusnum2}<End>"; ”// 问 句 模板 
g.add ("Add", right); 1/ 间 旬 意 加 :aa3 

right = "<Begin><DiseaseName>{disease} 怎 么 治疗 <End>"; 

g.add ("Cure", right); // 间 句 意图 :Cure 

String type = "DiseaseName"; 


String diseaseName = "糖尿 病 "; 
// 仅 仅 增加 词 而 不 是 加 规则 
g.addWord (diseaseName, type); 


TextExtractor ie = new TextExtractor (g) 7 // 问 句 文法 对 应 的 文本 提取 器 
String question = "糖尿 病 怎么 治疗 "; 
AdjList adjList = jie.getLattice (question); // 返 回 问 句 对 应 的 词 图 


System.out .Println (adjList); 


根据 问 句 模板 返回 答案 : 

KnowlegeBase kb = new KBSqlite(); // 使 用 Sqlite 数 据 库存 储 知识 库 
GrammarAnswer answer = new GrammarAnswer (kb) // 根 据 文法 返回 答案 
String question = "糖尿 病 怎么 治疗 "; 

String ans = answer.getAnswer (question); // 返 回 知识 库 中 存储 的 答案 
System.out .Println (ans) 7 // 输 出 答案 


为 了 能 够 回答 可 能 出 现在 语音 识别 结果 中 的 “What is three plus four? ”这 类 问题 ， 


需要 识别 英文 数字 。 识 别 英文 数字 的 自动 机 代码 如 下 : 


Public static Automaton getEnNum() { 


Automaton num = BasicAutomata.makeString ("zero"); // 接 收 英文 单词 

num = num.union (BasicAutomata.makeString ("one")); // 并 联 英文 单词 

num = num.union (BasicAutomata.makeString ("two")); 

num num.union (BasicAutomata.makeString ("three")); 

num num.union (BasicAutomata.makeString ("four") ) 7 

num num.union (BasicAutomata.makeString ("five")); 

num num.union (BasicAutomata.makeString ("six")); 

num num.union (BasicAutomata.makeString ("seven")); 

num num.union (BasicAutomata.makeString ("eight")); 

num num.union (BasicAutomata.makeString ("nine")); 

num = num.union (BasicAutomata.makeString ("ten")); 

num num.union (BasicAutomata.makeString ("eleven")); 

num num.union (BasicAutomata.makeString ("twelve")); 

num num.union (BasicAutomata.makeString ("thirteen")); 

num num.union (BasicAutomata.makeString ("fourteen") ) 7 

num num.union (BasicAutomata.makeString ("fifteen")); 

num = num.union (BasicAutomata.makeString ("sixteen") ); 

num num.union (BasicAutomata.makeString ("seventeen")); 

num num.union (BasicAutomata.makeString ("eighteen")); 

num num.union (BasicAutomata.makeString ("nineteen") ) 7 
人 


num = num.union (BasicAutomata.makeString ("twenty")); 


return num; 


Automaton numAutomaton = AutomatonFactory .getEnNum(); 
String num="one"; // 待 测试 的 英文 文本 
System.out .println (BasicOperations .run (numAutomaton,，num) ) ;// 判 断 是 否 能 接收 


// 得 到 识别 英文 数字 的 自动 机 


增加 问 句 规则 : 


QuestionGrammar g = new QuestionGrammar () 7 // 问 句 文法 


String right = "<Begin>What js <EnNum> plus <EnNum><End>"; 
g.add ("EnAdq"，right); // 这 个 问 句 规则 使 用 处 理 器 EnAdd 


让 机 器 人 可 以 回答 “ 找 < 人 名 > 的 照片 ”， 这 里 使 用 OpenCV 实 现 人 脸 识别 。 


人 脸 识 别 是 OpenCV 额 外 模块 的 一 部 分 。 需 要 在 如 下 网 址 下 载 : 
https://github.com/opencv/opencv_contrib。 
还 有 最 新 版 本 的 OpenCV， 地 址 如 下 : 


https://opencv.org/releases.html, 


使 用 OpenCV 之 前 需要 静态 加 载 本 地 库 : 


static{System.loadLibrary (Core.NATIVE LIBRARY NAME) ; } 


可 以 添加 一 个 JVM 参 数 来 绕 过 库 路 径 问题 : 


-Djava.library.path=/home/edward/Downloads/opencv-3.3.1/build/lib/ 


训练 人 脸 识别 器 (在 这 里 是 从 检测 到 /裁剪 的 人 脸 图 像 目录 ) ， 代 码 如 下 : 


[ 


new ArrayList<>();  // 源 图 像 
new ArrayList<>(); // 名 字 列 表 
; // 人 名 编号 


ArrayList<Mat> sourceImages 
List<String> namesIndexList 
List<Integer> namesIntList = new ArrayList<>() 
Files.list (path) .forEach (file -> { 
String filename = file.getFileName () .toString(); 

if (filename.contains ("-") && filename.endsWith ("jpg"))1{ 

// 从 文件 名 中 提取 人 名 ， 例 如 从 sdd-1.jpg 中 提取 edd 

String PersonName = filename.substring (0, filename.indexOf("-")); 

if (!namesIndexList.contains (personName)){ 

namesIndexList .add (personName); 


} 
Mat image = Imgcodecs.imread (file.toString()); 
Imgproc.cvtColor (image, image, Imgproc.COLOR BGR2GRAY); // 将 图 像 转换 为 灰 度 图 
SourceImages .add (image) 7 
namesIntList.add (namesIndexList.indexOf (personName) ) ;// 加 入 人 名 编号 
]) 
FaceRecognizer faceRecognizer = LBPHFaceRecognizer.create(); // 使 用 LBP 直 方 图 实现 人 脸 识别 
MatOfInt matOofInt = new MatOfInt () 7 
matOfInt.fromList (namesIntList); 
faceRecognizer.train (sourceImages，matOfInt); ”// 训 练 数据 集 


这 里 值得 注意 的 是 ， 在 训练 时 需要 传递 一 个 Mat 图 像 的 数组 和 一 个 表示 每 个 人 脸 标 识 整 数 的 Mat 对 象 。 将 每 个 新 名 称 添加 到 一 个 ArrayList 中 ， 这 样 人 名 就 有 了 一 个 编号 ， 然 后 将 该 编号 添加 到 列表 中 。 
如 果 有 多 个 人 脸 照 片 ， 则 编号 会 重复 放 入 列表 。 文 件 命名 约定 是 任意 的 edd-1.jpg、edd2.jpg 和 ben-1.jpg 等 。 


预测 过 程 很 简单 ， 如 下 : 


Imgproc.cvtColor (image，image，Imgproc.COLOR BGR2GRAY) ; ”// 将 图 像 转换 为 灰 度 图 
faceRecognizer.predict label (image); // 返 回 识别 出 来 的 用 户 编号 


可 以 用 返回 的 整数 查找 人 名 。 


8.3 ”搜索 文档 


本 节 使 用 Elasticsearch 搜 索 公开 的 药物 临床 试验 项 目 信息 。 首 先 使 用 网 络 怜 虫 抓 取 网 页 和 Word 文 档 中 的 信息 ， 然 后 索引 和 搜索 数据 。 


8.3.1 怜 虫 抓 取信 息 


使 用 PhantomJs 抓 取 网 站 : 


System. setProperty ("phantomjs.binary.path", 
"F:/crawler/phantomjs-2.1.1-windows/bin/phantomjs.exe"); 


String path = "F:/crawler/™; // 保 存 抓 取 结果 的 路 径 
int pgNo = 1; // 页 码 号 
WebDriver driver = new PhantomJSDriver () 7 


String url = "http://www.chinadrugtrials.org.cn/eap/clinicaltrials. 
searchlist"; 
Griver.get (url); 
Thread. sleep (2000); // 等 待 一 段 时 间 ， 让 网 页 下 载 完成 
while (true) { 

String content = driver.getPageSource(); 


writeToFile (content, path + "trials/" + pgNo + ".html", "utf-8"); // 写 入 本 地 文件 中 


// 查找 下 一 页 链接 
By by = By.className ("page next"); 


WebElement nextPage = driver.findElement (by); 
if (nextPage ==null) break; // 如 果 没 有 下 一 页 了 则 退出 
nextPage.click(); 
Thread. sleep (2000); 
pgNot+; 
} 
driver.quit (); 


把 下 载 的 网 页 中 的 信息 写 入 Sqlite 数 据 库 。 以 下 用 Java 程 序 展示 如 何 连 接 到 现 有 的 数据 库 。 如 果 这 个 数据 库 不 存在 ， 就 会 即时 创建 它 ， 并 最 终 返 回 一 个 数据 库 对 象 。 


Class.forName ("org.sqlite.JDBC"); // 加 载 数据 库 驱 动 程序 

String path to sqlite db = ",./db/trials.db";  // 指 定数 据 库 文件 
Connection conn = DriverManager.getConnection("jdbc:sqlite:"+path to_ 
sqlite db); // 建 立 连接 


首先 用 程序 自动 创建 数据 库 文件 和 表 : 


// 建 立 连接 。 如 果 数 据 库 文件 不 存在 ， 则 自动 创建 这 个 文件 


Connection conn = getConnect (); 


Statement stmt = conn.createStatement (); 

// 创 建 表 。 如 果 表 不 存在 ， 则 自动 创建 这 个 表 ， 否 则 跳 过 这 一 步 

String sql = "create table if not exists trials (regno string, status 
String) "7 


stmt .executeUpdate (sql); 
stmt.close(); 
conn.close(); 


然后 把 网 页 中 的 数据 放 入 数据 库 : 


String inSql = "insert into trials (regno ,status)values(?,?)"; // 插 入 数据 库 的 SQL 语句 
PreparedStatement insertStmt = conn 
.PrepareStatement (inSql); 
String path = "F:/crawler/trials"; 
File file = new File(path); 
String htmls[] = file.list(); // 遍 历 文件 
for (int j = 0; j < htmls.length; j++) { 
File f = new File(path + "/" + htmls[j]); 
String content = FileUtils.readFileToString (f, “utf8"); // 读 取 文 件 内 容 
Document doc = org.jsoup.Jsoup.parse (content); // 使 用 Jsoup 解 析 网 页 格式 的 文本 


Element esl = doc.getElementsByClass ("Tab") .first (); // 读 取 表 格 


Elements tr = esl.getElementsByTag ("tr"); 


for (int i= 1 1 < tr.aize(}? ++1i) 1 
Elements td = tr.get (i) .getElementsByTag ("td"); 
String regno = td.get (1) .text (); // 得 到 注册 号 
String status = td.get (2) .text (); // 得 到 状态 
insertStmt .setString(1, regno); // 写 入 注册 号 
insertStmt.setString(2, status); / 入 状态 
insertStmt .executeUpdate (); // 执 行 插入 语句 
} 
} 
insertStmt .close(); // 关 闭 语句 


使 用 FireFox 自 动 下 载 Word 文 件 。 在 pom.xml 中 引入 依赖 : 


<dependency> 
<groupId>org.seleniumhq.selenium</groupId> 
<artifactId>selenium-java</artifactId> 
<version>3.8.1</version> 

</dependency> 


<dependency> 
<groupId>org.seleniumhq.selenium</groupId> 
<artifactId>selenium-server</artifactId> 
<version>3.8.1</version> 

</dependency> 


首先 从 https://github.com/mozilla/geckodriver 下 载 Windows 下 运行 的 驱动 文件 gecko driver.exe， 然 后 使 用 Selenium 驱 动 的 FireFox 下 载 和 


个 doc 文 件 。 代 码 如 下 : 


// 指 定 FireFox 驱 动 所 在 的 路 径 


System. setProperty ("webdriver.gecko.driver", "D:/driver win32/geckodriver.exe") 7 
FirefoxOptions firefoxOptions = new FirefoxOptions () 7 


// 设 置 自动 保存 doc 文 件 的 配置 信 

FirefoxProfile firefoxProfile = new FirefoxProfile(); 

String downPath = "c:\\downloads"; 

firefoxProfile.setPreference ("browser.download.folderList",2); 

firefoxProfile.setPreference ("browser.download.manager.showWhenStarting 

",false); 

firefoxProfile.setPreference ("browser.download.dir", downPath); 

// 直 接 保存 到 本 地 硬盘 

firefoxProfile.setPreference ("browser.helperApps.neverAsk.saveToDisk"," 

application/msword"); 

// 如 果 是 自动 保存 PDF 文 件 ， 则 使 用 如 下 的 配置 信息 

//firefoxProfile.setPreference ("browser.helperApps.neverAsk.saveToDisk" 
"application/pdf"); 


息 


firefoxOptions .setProfile (firefoxProfile); 
WebDriver driver = new FirefoxDriver (firefoxOptions); 


String url = "file:///d:\\crawler\\detail\\CTR20171478 详 细 信 息 .html"; // 从 指定 的 网 址 下 载 
driver.get (url); 
Thread. sleep (2000); // 等 待 2 秒 
By by = By.className ("download"); // 找 到 下载“ 按钮 
WebElement down = driver.findElement (by); 
down.click(); // 自 动 单 击 * 下 载 “按钮 
Thread. sleep (5000); // 等 待 5 秒 
driver.quit (); // 退 出 FireFox 
File src = new File (downPath+"/ 详 细 doc")} 
File dest = new File("d:/crawler/doc/ 详 细 信 息 .doc"); 
FileUtils.moveFile (src, dest); // 转 移 文件 
遍历 所 有 的 网 页 文件 ， 下 载 对 应 的 Word 文 档 : 
File file = new File("d:/crawler/detail/"); 
File[] fileList = file.]listFiles(); 
for (File £f : fileList) { // 遍 历 网 页 存放 路 径 下 的 文件 
String docFile = f.getName() .substring (0, f.getName().length() - 5) 
+ ".doc"; // 根 据 编号 生成 Word 文 件 名 
File dest = new File("d:/crawler/doc/" + docFile); 本 
if(dest.exists()){ // 如 果 已 经 存在 ， 则 不 重复 下 载 
continue; 
. 
// 执 行 下 载 
FileUtils.moveFile (src, dest); // 转 移 下 载 的 文件 
} 
使 用 Aspose.Words 从 下 载 的 Word 文 档 中 提取 信息 。 首 先 定义 存放 信息 的 实体 类 ， 表 示 药物 临 床 试验 信息 的 Trials.cs 文 件 内 容 如 下 : 


public class Trials{ 


public string regno; // 登 记号 

public string sponsor; // 申 办 者 联系 人 
public string tel; // 电 话 

public string email; // 邮 箱 

public string address; // 地 址 

public string pubdate; // 公 示 日 期 

public string company; // 申 办 者 联系 人 
public string testcaseno; // 试 验方 案 编号 
public string acceptanceno; // 临 床 申 请 受理 号 
public string drugtype ; // 药 物 类 型 

public string fundingsource; // 试 验 项 目 经 费 来 源 
public string purpose; // 试 验 目 的 

public string testtype; // 试 验 分 类 


public string teststage; // 试 验 分 期 
public string designtype; // 设 计 类 型 


public string random; 
public string blingd; // 法 讶 


public string scope; // 试 验 范围 

public string subjectage; // 受 试 者 年 龄 

public string subjectsex; // 受 试 者 性 别 

public string healthysubject; // 健 康 受 试 者 
public string includecriteria; // 入 选 标准 
public string exclusioncriteria; // 排 除 标准 
public string targetenrollmentnumber; // 目 标 入 组 人 数 
public string actualenrollednunmber; // 实 际 入 组 人 数 


public string testdrug; 


// 试 验 多 


Public 
Public 
Public 
Public 
Public 
Public 
Public 
Public 
Public 
Public 
Public 


string controlleddrug; // 对 照 药 

string mainendpointindicator evaluationtime; 
string secondaryendpointindicator evaluationtime; 
string datasecuritycommission; 
String injuryinsurance; 
string firstcasedate; 
string principalresearchername; 
string principalresearcherphone; 
string principalresearcheremail; 
string participatingagency; 9 信息 
string ethicscommittee; // 伦 理 委 员 会 信息 


“// 数 据 安全 监察 委员 会 (DMC) 
// 为 受 试 者 购买 试验 伤害 保险 


// 主 要 终点 指标 及 评价 时 间 


// 次 要 


终点 指标 及 评价 时 间 


找 出 文档 中 所 有 的 表格 : 


Aspose.Words.Document oleDocument = new Aspose.Words.Document 


(docFilel 
NodeCo11' 


Name) 7 


ection tables = oleDocument .GetChildqNodes (NodeType.Table, true); 


遍历 表格 : 


Trials t 


foreach (Table table in tables){ 
// 遍 历 表格 中 的 每 行 
IEnumerator rowEnumerator = table.Rows.GetEnumerator(); 
while (rowEnumerator.MoveNext () ) ”// 移 动 到 下 一 行 


rials = new Trials(); 


{ 
Row row = (Row) rowEnumerator.Current; // 得 到 当前 行 
// 遍 历 一 行 中 的 每 个 单元 格 
IEnumerator cellEnumerator = row.Cells. 
GetEnumerator (); 


while (cellEnumerator.MoveNext ()){ // 移 动 到 下 一 个 单元 格 


Cell cell = (Cell)cellEnumerator.Current; 
string text = cell.GetText (); 


if (text .Equals ("联系 人 姓名 ") ) { 
cellEnumerator.MoveNext () 7 
cell = (Cell)cellEnumerator.Current; 
text = cell.GetText (); // 得 到 联系 人 姓名 
trials.sponsor = text.Substring (0, text. 
Length-1); 


} 

else if (text .Equals ("联系 人 电话 ")){ 
cellEnumerator .MoveNext () 7 
cell = (Cell)cellEnumerator.Current; 
text = cell.GetText (); // 得 到 联系 人 电话 
trials.tel = text.Substring (0, text.Length-1); 


} 

else if (text.Equals ("联系 人 Fmail")){ 
cellEnumerator .MoveNext () 7 
cell = (Cell)cellEnumerator.Current; 
text = cell.GetText (); // 得 到 联系 人 E-mail 
trials.email = text.Substring (0, text. 
Length-1); 


} 

else if (text .Equals ("联系 人 邮政 地 址 ") ) { 
cellEnumerator .MoveNext () 7 
cell = (Cell)cellEnumerator.Current; 
text = cell.GetText (); ”// 得 到 联系 人 邮政 地 址 
trials.address = text.Substring (0, text. 
Length-1); 


// 创 建 存放 提取 信息 的 实体 类 


// 得 到 当前 单元 格 
// 得 到 当前 单元 格 中 的 文本 


从 多 行 表格 中 提取 信息 : 


public static string getMutiLine (NodeCollection tables, string label){ 


String content =""; // 提 取 内 容 


foreach (Table table in tables){ 


} 


// 记 有 历 每 个 表格 


IEnumerator rowEnumerator = table.Rows .GetEnumerator () 7 


while (rowEnumerator .MoveNext () ) // 移 动 到 下 一 行 
{ 
Row row = (Row) rowEnumerator.Current; // 得 到 当前 行 


// 得 到 单元 格 迭 代 器 


IEnumerator cellEnumerator = row.Cells.GetEnumerator () 7 


while (cellEnumerator.MoveNext () ) { 
Cell cell = (Cell)cellEnumerator.Current; 


string text = cell.GetText (); 


if (text.Equals (label)){ 
cellEnumerator .MoveNext (); 
cell = (Cell)cellEnumerator.Current; 
text = cell.GetText (); 


while (true){ 


if (Regex.IsMatch (text, @"^\d+")){ 
content +=text.Substring (0, text. 
Length-1)+"\r\n"; 


rowEnNnumerator .MoveNext () 7 
row = (Row)rowEnumerator.Current; 


cellFEnumerator = row.Cells. 
GetEnumerator (); 
cellFEnumerator .MoveNext () 7 
cell = (Cell)cellEnumerator.Current; 
text = cell.GetText (); 
} 
else{ 
break; 
了 
} 
break; 
} 
} 
} 


// 输 入 提取 标签 


// 得 到 行 欠 代 器 


// 判 断 是 否 以 数字 开头 


// 移 动 到 下 一 行 


return content; 


更 新 Sqlite 数 据 库 中 的 数据 ， 把 从 Word 文 档 中 提取 出 来 的 信息 存 入 数据 库 : 


public static void save (Trials trials){ 
// 与 数据 库 建立 连接 
string dbFile = "F:/workspace/DrugCrawlerPhantomJ/db/trials.db"; 
SQLiteConnection m dbConnection = 
new SQLiteConnection ("Data Source="+dbFile+";Version=3;"); 
m dbConnection.Open (); 


string sql = 
"update trials set tel=?,sponsor=?,pubdate=?,company=?, testcaseno=?, 
includecriteria=?,exclusioncriteria=?,targetenrollmentnumber=?,actualen 
rollednumber=?, testdrug=?, controlleddrug=?,mainendpointindicator evalua 
tiontime=?, secondaryendpointindicator evaluationtime=?, datasecuritycomm 
ission=?,injuryinsurance=?, firstcasedate=?,principalresearchername=?, pr 
incipalresearcherphone=?,principalresearcheremail=?,participatingagency 


=?,ethicscommittee=? where regno=?"; / /更 新 表 的 SQL 语 句 
SQLiteCommand command = new SQLiteCommand (sql, m dbConnection); 
// 设 置 参 数 


SQLiteParameter tel = new SQLiteParameter (); 

SQLiteParameter sponsor = new SQLiteParameter () 7 

SQLiteParameter regno = new SQLiteParameter () 7 

SQLiteParameter pubdate = new SQLiteParameter () 7 

SQLiteParameter company = new SQLiteParameter () 7 

SQLiteParameter testcaseno = new SQLiteParameter ()7 

SQLiteParameter includecriteria = new SQLiteParameter (); 

SQLiteParameter exclusioncriteria = new SQLiteParameter () 7 

SQLiteParameter targetenrollmentnumber = new SQLiteParameter (); 

SQLiteParameter actualenrollednumber = new SQLiteParameter (); 

SQLiteParameter testdrug = new SQLiteParameter () 

SQLiteParameter controlleddrug = new SQLiteParameter (); 

SQLiteParameter mainendpointindicator evaluationtime = new 
SQLiteParameter (); 

SQLiteParameter secondaryendpointindicator evaluationtime = new SQLiteParameter () 7 

SQLiteParameter datasecuritycommission = new SQLiteParameter (); 

SQLiteParameter injuryinsurance = new SQLiteParameter (); 

SQLiteParameter firstcasedate = new SQLiteParameter (); 

SQLiteParameter principalresearchername = new SQLiteParameter () 7 

SQLiteParameter principalresearcherphone = new SQLiteParameter (); 

SQLiteParameter principalresearcheremail = new SQLiteParameter (); 

SQLiteParameter participatingagency = new SQLiteParameter () 7 

SQLiteParameter ethicscommittee = new SQLiteParameter (); 


// 设 置 参数 

command.Parameters .Add (tel); 

command. Parameters .Add (sponsor); 

command. Parameters.Add (pubdate); 

command. Parameters.Add (company); 

command. Parameters .Add (testcaseno); 

command. Parameters.Add (includecriteria); 

command.Parameters .Add (exclusioncriteria); 

command. Parameters.Add (targetenrollmentnumber); 

command. Parameters.Add (actualenrollednumber); 

command. Parameters.Add (testdrug); 

command.Parameters.Add (controlleddrug); 
command.Parameters.Add (mainendpointindicator evaluationtime); 
command. Parameters.Add (secondaryendpointindicator_ 
evaluationtime); 

command.Parameters.Add (datasecuritycommission); 
command.Parameters.Add (injuryinsurance); 

command. Parameters.Add (firstcasedate); 

command. Parameters.Add (principalresearchername); 
command.Parameters.Add (principalresearcherphone); 
command.Parameters.Add (principalresearcheremail); 

command. Parameters.Add (Participatingagency) 7 
command.Parameters .Add (ethicscommittee); 
command. Parameters.Add (regno); 


// 设 置 值 
tel.Value = trials.tel; 
sponsor.Value = trials.sponsor; 
regno.Value = trials.regno; 
pubdate.Value = trials.pubdate; 
company.Value = trials.company; 
estcaseno.Value = trials.testcaseno; 
includecriteria.Value = trials.includecriteria; 
exclusioncriteria.Value = trials.exclusioncriteria; 
targetenrollmentnumber.Value = trials.targetenrollmentnumber; 
actualenrollednumber.Value = trials.actualenrollednumber; 
testdrug.Value = trials.testdrug; 
controlleddrug.Value = trials.controlleddrug; 
mainendpointindicator evaluationtime.Value = trials. 
mainendpointindicator evaluationtime; 
secondaryendpointindicator evaluationtime.Value = 

telalg secondaryendpointindicator evaluationtime; 
datasecuritycommission.Valuve = trials.datasecuritycommission; 
injuryinsurance.Value = trials.injuryinsurance; 
firstcasedate.Value = trials.firstcasedate; 
Principalresearchername.Value = trials.principalresearchername; 
principalresearcherphone.Value = trials.principalresearcherphone; 
principalresearcheremail.Value = trials.principalresearcheremail; 
participatingagency.Value = trials.participatingagency; 
ethicscommittee.Value = trials.ethicscommittee; 


command.ExecuteNonQuery (); 


m dbConnection.Close(); 


8.3.2 在 Linux 下 使 用 .NET 


我 们 可 以 使 用 以 下 命令 在 CentOS 7 上 安装 .NET Core: 


# yum install centos-release-dotnet 
# yum install rh-dotnet20 


使 用 .NET Core: 


# scl enable rh-dotnet20 bash 
# dotnet --info 


运行 例子 如 下 : 


# mkdir helloworld && cd helloworld 
# dotnet new console 
# dotnet run 


代码 是 用 模板 构建 的 。 这 里 使 用 的 是 控制 台 应 用 程序 模板 ， 并 且 该 项 目的 依赖 关系 由 dotnet restore 命 令 自动 检索 ， 可 从 https://www.nuget.org 网 站 上 提取 。 


如 果 查 看 目录 ， 会 看 到 创建 了 以 下 文件 : 


Program.cs 
helloworld.csproj 


其 中 ，Program.cs 是 C# 控 制 台 应 用 程序 代码 。helloworld.csproj 是 MSBuild 兼 容 的 项 目 文件 。 


dotnet run 这 个 命令 做 了 两 件 事 : 首先 其 建立 了 代码 文件 ， 并 运行 新 建 的 代码 文件 。 无 论 何 时 执行 dotnet run 命 令 ， 它 都 将 检查 *.csproj 文 件 是 否 已 被 更 改 ， 并 将 运行 dotnet restore 命 令 。 其 
命令 还 可 以 检查 是 否 有 任何 源 代码 已 被 修改 ， 并 在 后 台 运 行 dotnet build 命 令 构 建 可 执行 文件 ， 并 运行 可 执行 文件 。 


次 ，dotnet run 命 


除了 dotnet， 在 Linux 下 还 可 以 使 用 Mono 开 发 C# 应 用 。Mono 是 C# 语 言 的 开源 跨 平台 开发 系统 ， 它 也 是 可 执行 运行 时 引 警 的 名 称 ， 支 持 运行 由 MCS 编 译 器 生成 的 输出 文件 。 而 MCS 是 Mono 系 统 的 编 
译 器 。mcs 命 令 编译 出 的 |L 代 码 可 以 用 mono 命 令 执 行 。 


可 以 用 make 命 令 构建 Mono 项 目 。 构 建 模板 如 下 : 


# 将 其 更 改 为 Main 类 文件 的 名 称 ， 不 带 文件 扩展 名 
MRIN_FILE = App/Program 


# 将 其 更 改 为 项 目 文件 夹 的 深度 


# 如 果 需 要 ， 还 可 以 为 通用 项 目 文件 夹 添加 前 缀 
CSHARP_ SOURCE, FILES = $ (wildcard */*/*.cs */*.cs *.cs) 


# 添 加 需要 的 标志 到 compilerCSHARP FLAGS = -out:$ (EXECUTABLE) 
CSHARP_FLAGS = -out:$ (EXECUTABLE) 


# 更 改 为 环境 中 的 编译 器 
CSHARP COMPILER = mcs 


# 如 果 需 要 ， 更 改 可 执行 文件 
EXECUTABLE = $ (MAIN FILE) .exe 


# 如 果 需 要 ， 可 根据 用 户 的 操作 系统 更 改 删除 命令 
RM CMD = -rm -f $ (EXECUTABLE) 


all: $ (EXECUTABLE) 


$ (EXECUTABLE) : $ (CSHARP SOURCE FILES) 
Q@ S$ (CSHARP COMPILER) $ (CSHARP _ SOURCE FILES) $ (CSHARP_ FLAGS) 
Q@ echo compilinghttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17738/OEBPS/Text/... 


run: all 
./S (EXECUTABLE) 


clean: 
@ $ (RM CMD) 


remake: 
@ $(MAKE) clean 
@ $ (MAKE) 


8.3.3 ”NEST 客 户 端 


Elasticsearch.NET 是 一 个 非常 底层 的 客户 端 。NEST 是 一 个 在 Elasticsearch.NET 上 构建 的 高 层 .NET 客 户 端 ， 可 以 从 https://github.com/elastic/elasticsearch-net 下 载 最 新 的 版 本 。 


可 以 通过 单个 节点 或 者 指定 多 个 节点 使 用 连接 池 连 接 到 Elasticsearch 集 群 。 连 接 到 单个 节点 的 例子 如 下 : 


var node = new Uri ("http://myserver:9200"); // 创 建 连接 到 Elasticsearch 的 URI 
var settings = new ConnectionSettings (node); // 连 接 设置 
var client = new ElasticClient (settings); // 创 建 ElasticClient 客户 端 


通过 连接 池 连 接 的 例子 如 下 : 


var nodes = new Uri[] 

{ 
new Uri ("http://myserverl:9200"), 
new Uri ("http://myserver2:9200"), 
new Uri ("http://myserver3:9200") 


Var pool = new StaticConnectionPool (nodes); 
Var settings = new ConnectionSettings (pool); 
var client = new ElasticClient (settings); 


使 用 连接 池 要 比 单个 节点 连接 到 Elasticsearch 更 有 优势 ， 如 支持 负载 均衡 、 故 障 转移 等 。 可 以 输出 集群 的 状态 


var res = client.Raw.ClusterHealth () 7 
Console.WriteLine (res.SuccessOrKnownError); 


然后 在 连接 设置 中 指定 默认 索引 : 


Var settings = new ConnectionSettings ( 

node, 

defaultIndex: "trails" // 设 置 默 认 索 引 为 trails 
); 


连接 参数 配置 到 app.config 文 件 中 。 


<add key="Search-Uri" value="http://localhost:9200" /> 


可 以 使 用 这 样 的 代码 配置 客户 端 


Var node = new Uri (ConfigurationManager.AppSettings["Search-Uri"]); // 读 配置 文件 
var settings = new ConnectionSettings (node); / /建立 连接 设置 
settings.PrettyJson(); // 为 了 调试 ， 可 以 输出 设置 的 JSON 格 式 


var client = new ElasticClient (settings); 


ElasticClient.Createlndex 方 法 创建 索引 ， 代 码 如 下 : 


Var descriptor = new CreateIndexDescriptor ("trials") 
.Settings (s => s.NumberOfShards (5) .NumberOfReplicas (1) ) ; // 5 个 主 分 片 
client.CreateIndex (descriptor); 


如 果 删 除 索 引 ， 可 以 使 用 DeletelndexDescriptor。 例 如 : 


Var descriptor = new DeleteIndexDescriptor ("trials") .Index("trials") 7 
Client.DeleteIndex (descriptor); 


可 以 使 用 基于 属性 的 映射 来 定义 索引 结构 。 在 NEST 中 有 两 个 映射 属性 可 用 ， 即 ElasticType 和 ElasticProperty。 


:ElasticType 属 性 定义 Elastic 索 引 类 型 ， 可 以 指定 Name 和 IdPropetty 选 项 ， 其 中 Name 提 供 类 型 名 称 ，IdProperty 指 定 哪个 属性 应 该 用 做 ID 键 。 


“ ElasticProperty 属 性 指定 模型 属性 应 如 何 编制 索引 。 


对 于 每 个 属性 ， 我 们 可 以 分 配 以 下 4 个 选项 : Name、Type、Index 和 Analyzer。Name 选 项 指定 在 Elastic 索 引 中 调用 的 属性 ; Type 选项 指定 如 何 存储 属性 (Elastic 内 部 类 型 有 string、integerlong、 
float/double、boolean 和 null) ; Index 选 项 具有 以 下 值 。 


“ Analyzed: 在 索引 之 前 分 析 和 处 理 属性 的 值 ; 
: NotAnalyzed: 属性 的 值 不 会 被 分 析 ， 并 将 被 编 入 索引 j; 
: No: 属性 的 值 不 会 建立 索引 。 


在 TrialsProject.cs 文 件 中 定义 临床 信息 的 索引 结构 ， 代 码 如 下 : 


[ElasticType (IdProperty = "Id", Name = "trials project")] 
public class TrialsProject 
{ 


[ElasticProperty (Name = "_id", Index = FieldIindexOption.NotAnalyzed, 
Type = FieldType.String) ] 
public Guid? Id { get; set; } //Ig 列 


[ElasticProperty (Name = "title", Index = FieldIndexOption.Analyzed, Type 
= FieldType.String)] 
public string Title { get; set; } // 临 床 项 目 名 称 


[ElasticProperty (Name = "body", Index = FieldIindexOption.Analyzed, Type 
= FieldType.String)] 3 
public string Body { get; set; } // 临 床 项 目 内 容 描 述 


public override string ToString () 
{ 
return string.Format ("Id: '{0}', Title: '{1}', Body: '{2}'", Id, 
Title, Body); 
} 
} 


使 用 属性 中 的 类 型 和 映射 信息 来 创建 索引 。 如 下 : 


Var res = client.CreateIndex (ci => ci 

.Index ("trials") 

.AddMapping<TrialsProject> (m => m.MapFromAttributes ())); 
Console.WriteLine (res.RequestInformation.Success); 


可 以 单条 或 者 批量 插入 数据 。 插 入 单条 记录 的 方法 如 下 : 


Var trials = new Trials 
{ 
I = Fr 
Title = “" 甲 磺 酸 沙 芬 酰胺 片 人 体 生物 等 效 性 研究 "， 
Body = "生物 等 效 性 试验 /生物 利用 度 试验 " 


] 7 


// 也 可 以 通过 settings.DefaultIndex 指 定 索引 
Var response = client.Index (trials, idx => idx.Index("trials")); 
Console.WriteLine (response.RequestInformation.Success);// 看 是 否 成 功 索 引 


Query DSL 是 一 个 通用 的 查询 框架 。 可 以 通过 Elasticsearch.Net API 向 搜索 服务 器 发 送 JSON 格 式 的 Query DSL。 


基本 词 查询 : 

String keyWords = "二 甲 双 肘 "; ”// 查 询 词 

Var rs = client.Search<Trials>(s => s.Index("trials") .QueryString 
(keyWords) ) 7 


Console.WriteLine (JsonConvert.SerializeObject (rs.Documents) ) 


查询 标题 列 : 


Var res = client.Search(s => S 

‘Query(q => q 

.Match (m => m.OnField(f => f.Title) .Query(" 二 甲 双 股 ") ) ) ) ;// 指 定 查询 列 
Console.WriteLine (res.RequestInformation.Success) 7 

// 查 询 结果 需要 返回 一 个 结果 总 数 ， 用 于 知道 可 以 翻 多 少 页 

Console.WriteLine (res.Hits.Count ()); // 输 出 返回 结果 数量 


// 遍 历 每 条 查询 结果 
foreach (var hit in res.Hits) 


{ 


Console.WriteLine (hit.Source); // 输 出 命中 结果 
} 


如 果 需 要 文档 包括 所 有 的 词 ， 可 以 使 用 AND 连 接 查 询 词 。 如 下 : 


Var res = client.Search<Trials>(s => s 
.Query(q =>> q 
.Match(m => m 
.OnField(f => f.Title) 
.Query(" 二 甲 双 且 ") 
.OPerator (OPerator.Rnd) )))7 // 指 定 查询 操作 符 


在 查询 输入 中 需要 设置 两 个 参数 : 从 第 几 个 结果 开始 返回 文档 ， 以 及 最 多 返回 多 少 个 文档 。 为 了 把 所 有 的 文档 都 找 出 来 ， 可 以 使 


MatchAll () 函数 查询 。 如 下 : 


Var res = client.Search<Trials>(s => S 
.From(0) // 指 定 开 始 行 
.Size (5) // 指 定 结束 行 
.Query (q => q.MatchAll ()); 


使 用 Should () 函数 同时 搜索 标题 和 正文 : 


Var boolRes2 = client.Search<Trials>(s => S 
-Query (qd => 9 
.Bool (b => b // 布 尔 查询 
.Should (sh => 

sh.Match (mt1l => mtl1.OnField(fl => fl.Title) .Query(" 二 甲 双 县 ")) 11 
sh .Match (mt2 => mt2.0nField(f2 => f2.Body) .Query ("对 照 ")) 

) ) ) 

.Sort (o => o.OnField(P => p.Title) .Rscending()))7 // 标 题 升序 


然后 增加 一 个 must_not 约 束 条 件 : 


Var boolRes3 = client.Search<Trials>(s => S 
-Query (qd => 9 
.Bool (b => b 
.Should (sh => 
sh.Match (mtl => mt1.OnField(fl => f1.Title) .Query ("二 甲 双 肌 ")) || 
sh.Match (mt2 => mt2.0nField(f2 => f2.Title) .Query (" 编 号 ") ) ) 
.Must (ms => // 必 须 满足 的 条 件 
ms .Match (mt2 => mt2.0nField(f => f.Body) .Query(" 对 照 ") ) ) 
.MustNot (mn => // 排 除 的 词 
mn.Match (mt2 => mt2.0nField(f => f.Body) .Query(" 终 止 ") ) 


) ) ) 
.Sort (o => o.OnField(P => p.Title) .Ascending ())); // 标 题 升序 


可 以 在 多 个 列 上 设置 高 亮 。 首 先 指定 哪些 列 需要 高 亮 ， 然 后 在 命中 结果 中 得 到 高 亮 段 。 可 以 通过 一 个 Dictionary 类 的 实例 指定 要 高 亮 的 多 个 列 。 代 码 如 下 : 


new SearchRequest<Project> 
{ 
Query = new MatchQuery 


{ 
"二 甲 双 肝 "， 


"name. standard" 


Query = 
Field = 
}, 
Highlight = new Highlight 
{ 


PreTags = new[] { "<tagl>" }, // 高 亮 标签 

PostTags = new[] { "</tagl>" }, 

Fields = new Dictionary<Field, IHighlightrField> 

{ 

{ "name.standard", new HighlightField 
" 2 

Type = HighlighterType.Plain， // 使 用 基本 的 高 亮 器 
ForceSource = true, 


FragmentSize = 150, // 高 亮 段 大 小 
NumberOfFragments = 3, // 段 的 数量 
NoMatchSize = 150 // 没 有 匹配 词 时 返回 的 文本 长 度 


} 
] 7 
{ "leadDeveloper.firstName", new HighlightField 
{ 
Type = "fvh", // 使 用 快速 向 量 高 亮 器 
BoundaryMaxScan = 50, 
PreTags = new[] { "<name>"}, 
PostTags = new[] { "</name>"}, 
HighlightQuery = new MatchQuery 
{ 


Field 
Query 


"leadDeveloper .firstName", 
"Kurt Edgardo Naomi Dariana Justice Felton" 


} 
] 
{ "state.offsets", new HighlightField 
{ 
Type = HighlighterType.Postings， // 使 用 文档 列表 高 亮 器 
PreTags = new[] { "<state>"}, 
PostTags = new[] { "</state>"}, 
HighlightQuery = new TermsQuery 
{ 


Field 
Terms 


"state.offsets", 
new [] { "stable", "bellyup" } 


8.4 ”本 章 小 结 


本 章 介绍 了 双语 句 对 搜索 、 内 容 管理 系统 站 内 检索 和 药物 临床 试验 项 目 信息 文档 搜索 的 Elasticsearch 应 


案例 。 


在 双语 句 对 搜索 案例 中 ， 可 以 借助 双语 句 对 和 PanLex (网 址 是 https://panlex.org/) 这 样 的 多 语言 词典 挖掘 更 多 的 词语 上 下 文 关 系 ， 提 升 分 词 准确 度 。 


使 用 Elasticsearch 实 现 站 内 检索 的 dotCMS 初 始 版 本 发 布 于 2005 年 。 在 PHP 版 本 的 内 容 管理 系统 流行 的 时 代 ，dotCMS 是 Java 的 一 个 可 选项 。 早 期 的 dotCMS 直 接 使 用 Lucene 实 现 搜索 功能 ,借助 内 容 


中 的 双语 句 对 ， 让 多 语言 的 网 站 能 够 让 搜索 结果 更 准确 。 


在 最 后 介绍 的 药物 临床 试验 项 目 信息 的 抓 取 和 搜索 案例 中 ， 搜 索 界面 运行 于 Mono 平 台 。 


Mono 是 由 Microsoft 的 子 公司 Xamarin 和 .NET Foundation 领 导 的 免费 开源 项 目 ， 旨 在 创建 符合 ECMA 标 准 的 兼容 .NET Framework 的 工具 集 ， 其 中 包括 C# 编 译 器 和 公共 语言 运行 平台 。Mono 可 以 


使 .NET 应 用 程序 运行 在 Windows、Linux 和 Mac OS 等 不 同 平台 上 。 


Mono 项 目 在 开放 源 代码 社区 中 一 直 存 在 争议 ， 因 为 它 实 现 了 微软 专利 所 涵盖 的 .NET Framework 的 部 分 功能 。 继 Microsoft 自 2014 年 开始 开源 多 项 核心 .NET 技 术 ， 以 及 于 2016 征 


后 ，Mono 项 目 获得 了 更 新 的 专利 承诺 。 


F 初 收购 Xamarin 之 
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